900ó V/X\VZSdV/X\ N/Kd l/x\O)nVN O/KIf lN/KVC^/K
ł,E
łlq|!Meuuv '6ue e4ńzÓ|.7 e1ńzopzldo6el1s;e
esoJel 'l lolueo
L|o^uep ;|celoldsłeop oluezpeMoJdM
3^uepz ńzpolM L,|
po otueM^r>l
Dane oryginału Daniel T. Larose DiscoveringKnowledgein Data.An Introductionto DATA MINING CopyrightO 2005by JohnWiley & Sons,Inc. All RightsReserved.This translationpublishedunderlicense.
Joanna Sobieraj Projekt okładkii stront5rtułowych Redaktorinicjujący Agnieszka Grabarczyk RedaktorKrystyna Jurkowska
Copyright @ for the Polish edition by Wydawnictwo Naukowe PWN SA Warszawa 2006
ISBN- 13 : 97 8-83 -01-14836-2 ISBN-10: 83-01-14836-5
Wydawnictwo Naukowe PWN SA 00-251 Warszawa, ul. Miodowa 10 tel.022 69 54 32r faks 022 69 54 031 e-mail:
[email protected] www.pwn.pl
esoJ€a lĘu?q3 '00zo
"' [a1opyo11 'nzDp qrl 1 .palzp q)rcuł DIQ ' .'
{a1opyot 1
,AĄq)Lzpol q31 1 ,AĄ?JLzpoJ qcIoru alQ
17, 9(
. . . . tlJ{u?p aruazczsńzJ ćouep 9elqeJqo śza1eaoBazce1ą
.z.z .|z
BIuezcI.ĄĄJ
W,
qcduep ullqgJqo uudÓ5'11 .7
97, c7
9I SI €I
zl
II OI OI 6 9
n v
7, I AX AX AIX AIX AIX ilx
mx rux ilIx
trx trx Ix Ix Ix
.8.l
Bmlerelr.I 'L'l . .9.9.I 1n3ereuełr'fu>1pg '''' eruerrrodrug'9'9'l ....e|ca1gńsep.n.9.I ' (efqdperd)erue,t'{prłrezr4.€.9.I ' . . (u|ceu,Ęse) eruerrrocez5.Z.9.I ' ' 'sldo 'I'9'I
....:.:i:"iT|:i::lu:1".n:i1x"#o"ffi .?.ł ' . .ł\9d?te .I.b.| 99ezs:WC-dsNJ ..... .v.I W61-dSIdJ :ssecoJdpJepu€1s,{r1snpu1-ssor3 's'l bfceroldsrle urue^\orepl ?eouzcemox : . :l"ji:t:t i.1.1::*o ' ' ' ' 'Z'l iqc'(uupulceroydsleo8ezcelo '''' iqc,tuepelcero1ds1e1se[o1o3'I'l qc,(uup {ce.ro1dsr1aop eluazpu,AoJdłt
.t
.ili......'l.......;,. .i. "**ł{ffiff ' ' qc,(uep 1[c -uro1ds1eeruern,(uo1'(tzazldodqcŃmp l|cero1dsr1e u>1ne51 :euzcf14urderuezcr.tr3 .n.n.O
.::.:':::"Tl":i":..i.:'.'#*l*;rTj^T'ff ::Jffi3i;Ę 2I,, óffiIK;J
. . . . .'t\9ul1śso81eeu,rc1etzp eruel.Ą\-ouo .|v.0 {epoul I łr-oun,{.to3pJnIInłs qc'{.to'rn'u1spodeIuelwnzorz:..e4udz.r4s e1erq.,nd'Ę erc9[epo4
.n.o
.::::::' .::::]*"l.u.|":':1,]"'i.'p:i:'1"".1Yd:irT 23 'I'0 iqc'{uepulceroldsle1sefo1o3
€'AorupezJd
!c$ollslds
2.3. 2'4. 2.5. 2.6.
obsługabrakującychdanych Identyfikacjabłędnychklasyfikacji Graficzne metody identyfikacji punktów oddalonych Przeksztatcanie danych 2.6.1. Normalizacja min-max f .6.2. Standaryzacja f.7. Metody numeryczne identyfikacji punktów oddalonych 2.8. Literatura 2.9' Ćwiczenia
.,...'.
...'..'
29 3f 33 35 35 36 38 39 39
4I
3. Eksploracyjna analiza danych (EDA)
41
3.1. Testowanie hipotez a eksploracyjna analiza danych 3.2. Poznawanie zbioru danych 3.3. Postępowanie ze skorelowanymi zmiennymi 3.4, Badanie zmiennych jakościowych 3.5. Wykorzystanie EDA do odkrycia nieprawidłowych pól . 3.6. Badanie zmiennych numerycznych 3.7. Badanie relacji wielowymiarowych 3.8. Wybieranie interesującegopodzbioru danych do dalszych badań . ' , 3.9. Dyskretyzacja 3.10. Podsumowanie 3.11. Literatura 3.If,Ćwiczenia...
A'
44 45 51 52 60 63 63 65 65 66 68
4, Podejścia statystyczne do szacowania i przewidywania . . . . . . . . . . 4.L. ZadaniaeksploracjidanychwOdkrywaniuwiedzyzdanych 4,2. Podejściastatystyczne do szacowania i przewidywania . . . . 4.3. Metody jednowymiarowe: miary środkai rozpiętości 4.4. Wnioskowanie statystyczne 4.5. Jak wiarygodne są nasze szacowania? 4.6, Szacowanie ptzedziałuufności . . . .. . 4.7. Metodydwuwymiarowe: prostaregresjaliniowa 4.8. Niebezpieczeństwaekstrapolacji... . 4,9 . Pruedzłalyufnościwartościśredniejy dla danego x 4.I0. Wzedziały ufnościprzewidywania losowo wybranej wartościy dla danego x ' . . 4.11. Regresja wielokrotna .'..... 4.l2.Weryfikacjazńozeńmodelu 4.l3.Literatura. .. .:.... 4.|4.Ćwiczenia...
68 69 69 '72
Algorytm t-najbliższych są,siadów
91
5.1. 5.2. 5'3. 5.4. 5.5. 5.6. 5.7.
Metody nadzorowane i nienadzorowane . Metodologiamodelowanianadzorowanego. Kompromis obciążeniowo-wariacyjny Zadanie klasyfikacji Algorytm k-najb|Lzszych sąsiadów odległość Funkcjadecyzyjna
..-....
....-..loz
73 74 76 ,79 81 81 83 85 89 89
9I 9f 94 96 9.7 99
oLI 89I 89I 99I g9l 99| z9I Lil Lil gsl bsl €9I I9I I9I
...€ueuoqo)Icels.z.6 . . órs ectfnzrue8roouus tcer5 .I.6 €uauorłoy !Ja!s .6 Eruezrr^\J 't'8 'ErruEretrl '9'8 .I.9.8 fceuBizelelue,t.r'{prrnezrd op ddruEop rcgouze1eu'(złdalcśzn JeuUĄIesufue1ugsvs nlu€.Ąó.ouer8ordo.ł\ qcrupeJ'-łnur1fuo81e elue.Ą\osols€Z .s.8 qJrypeJ'-łnru1fuo8pv!ftłelzppup1dzr4 .'.8 qcruperg-ry ufiro81y 't'8 . e1uazcb1od o8ell.Ą\ołłec upotehtr .z.z,8 etuazcb1od o8ezcufpefodepolelĄ .rz.8 o8euzcrqcrurerq urue'r.r,odru3 '{po1ey1 .Z.8 Brue.,lrodru8 eruepez 'I'8 .g qclupeJs-rlbpolorureuzJrqJJuJerqeluu.r\odnr9 ""
::::.... :::...... :. :'. :.. :..... :.... EŻ "-;";^,o;łj;::;i
znT onr
' :..'...:.' .?i:'::::::i:i*i:|p."x:#: 2łż
6nr 6Vr 9Vr 9nr vnr ENI
0tI 8€I 8€I LEI
vEr VEI ZEI
eruez.rl^J'9I'L '''ernlereTr:I'lI'L
. .II.l nluewoul łpp€ H S . . (eruezcn) .61.4 1[c4eroą 4tuu.{zc19ds11
. . . . |auzca7s.urlce8edord Ąn8eg . .' . nąpedso8ezs1órłrleuu1n8eg ' Buzcels,r efceEudor4 . . . r|ceirrfpp e|cąun; uqeprour8l5 . lerrt,ouorneu rcers pepdzrd 'Ęsor4 ' ' eruerrr,{pr.nezrd r uruemocBzsop e^\ouoJneurcers . . . . . qc'{łrorcg|'{'tr zero qc'{,trorc9[e.trrrgpu8,{selu€ . ĄAopo)
.L.L .9.L 'S'L ,n,L 't.'L 'z'L .rL
e.ł\ouoJneupe.ts .,
I€ I
6e| 6ZI su vu 8II III 60I LoI Lu 90I 90I 90I vu EoI ZU
BIuezcI.ĄdJ.9.9 '"-l"'ąń .s.9 .v.9 qcńuupqc,{1stał izcazl op qcdueaa'oso1sez JSYJ I 6.93 'trgufiro8p eruuu.tłgro d , ,eutfzścap .e.9 Ąn3e6 'Z'9 "' 9'nJu4dro31y euf,{serter r au['(ca1g,{sep1 ?A\ezr( 'I'9 ' ' eufdzdcepB,lAezrO '9 """
€ r uezcl.ĄJ .€ I .9 'v.^terclr-r'zys .II.9 łJ9q'qĄ . . etuur'rfpr.tłezld r utuu,ttrocezs op rrrgpursts qc,{zszr1q|eu-ry tu/ro81y .61.9 .. .6.9 qc,(uup zeq emerupó18złrn ' .. a^\oIc'oII eIu€IgeDIo .8.9 Iso etue8bnzol:n1nq'filelo9ou1olsl . euoz€.ĄAelu?.ĄAosoło.e.L,s "'"r*^oro13e1sor4 'I'L'g
t'71 Przykład uczenia sieci Kohonena . 175 Sprawdzenie poprawnościgrup . . r'75 grupowania do Zastosowanie sieci Kohonena t'7't 9.5.1. InterPretowaniegruP 181 9.5.2. Profile gruP 9.6. Użycie funkcji przynależnoścido grupy jako wejściado modeli eksploracji danych . . . . 182 183 9.7. Literatura 184 Ćwiczenia. 9.8.
9.3. 9.4' 9.5.
18s
10. Reguty asocjacyjne 10.1. Analiza podobieństw i koszyka sklepowego 10.1.1. Reprezentacja danych do analizy koszyka sklepowego A priori I0.2. Wsparcie' ufność,częste zdarzenia i właściwość 10.3. Jak dziata a|gorytm A priori (część1)? Tworzenie częstych zbiorów zdarueft |O.4. Jak dzia|aa|gorytm A priori (część2)? Tworzenile regut asocjacyjnych . . 1o.5' Rozszerzenie od zmiennych binarnych do ogólnych danych jakościowych ' 10.6. Podejścieteorii informacji: metoda uogólnionej indukcji reguł. . . 10.6.1. "/-miara L0.6.2. Zastosowanie uogólnionej indukcji reguł . . 10.7. Kiedy nie lzywać regułasocjacyjnych . . 10.8. Czy reglły asocjacyjne reprezentująlczenie nadzorowane, czy nieladzorowane? 10.9. Lokalne wzorce a globalne modele 1 0 . 1 0 .Literatura 1 0 . 1 1Ć . wiczenia ll. Techniki ewaluacji modelu
185 187 187 190 191 194 r95 196 19'7 199 202 203 204 f04
..... "
"
' zoj
" Technikiewaluacjimodeludozadaniaopisu. . . . . . Techniki ewaluacji modelu do zadań szacowania i przewidywania " "" Technikiewaluacjimodeludozadaniaklasyfikacji Współczynnik błędu,fałszywe klasyfikacje pozytywne (FP), fałszywe klasyfikacje nega""' tywne(FN) 11.5. Dopasowaniekosztubłędnejklasyfikacjiwceluodzwierciedleniarzeczywistych s1.rat.. . ' ' 11.6. Analiza decyzjikoszt/zysk . """' 1I.7. Wykresyprzyrostuiwykresyzysku ,..... 11.8. Połączenieocenymodeluzmodelowaniem ....... 11.9. Zbieznośćwyników:zastosowaniegrupymodeli
11.1. 1I.2. 11.3. 11.4.
11.10.Literatura. . 11.|1.Ćwtczenia... Epilog
flU 212 f14 2I5 218 f19
"220 ..220
2f2
.
-Zaproszenie ,,Dopiero co zaczę|iśmy,'
207 f08 209
do Data Mining Methods and Models
fzf
Literatura uzupełniająca . .
223
Indeks
224
.(.unp.dKzlĄ qcduep .qc'(uep .qc,(uep .qcfu u|cr1u4s1e eruedoą aruelqÓ18z.qc.{uup eruezŁrp .2p zeqz śzpalmetuerrrd.o1po :eluelgeĄo ect|ndó1seu zeIvMgI ts euu1,Ęods |er;s1odrr8o1oururre1 ,11,
ołoqół8 qc&ńDln I[ceuJoJuI qcruuec Z:rl1śzloĄb,ldnzcelu eIB .qcńuep Ą|eqera1l fi|-eq .qc,tuep zeqeluzazłd -e8eur '(q 'łł9ru1op '(uopur 'Ęup,fur e[cn1ń1sur 9tzpeanol?z l '(ulrld qc'{uepersodZ ^\gpuałI ^\gcJozł\r>1s'tz qc,fuŁzsouśzldaruułr'(r1potuoluJg BIł\IIzoun ze.treruod,|alzprcq ZBJoc luolup ul,{pzeąz órs eruqcezsztodzor qc'tuep elcero1ds1g .qc'(uepqcBJoIqZqc'Łnp eu qc'(uup l|ce.ro1ds4e o eruełr'(uoą'tzrr |a1s1n(zcezł .qc'(uup .eruerunzo:z euqełilop. llcero1ds1e '(u1'tlo31e b|e1etzp 1uf .rlcutulo;ur qc'.{uuecqc,{1'fu1nzrue.tr'tqpo [ue>Iluqce] I lru€Ieporu z Óls elueuzodez o :ltro>pu1e1dzJ uuo BI.ł\qZoun .euqozrlod]se|ą o1731s1o3e1e1polu9ułł[.99orpburłr auZJIIuouoSłB1 oł\ezJpl1śzc,)zpalu (wauDpat1lstzsu al Kzl914 ,Mq! ?rualruazJdb{naod -tł11ounqcKunno4{tlorcltt,qcKud)1sop aqzJll oątlul 1{.qz 1sa[uaua1qol1 'qcśuepqcec .'{uoqrur -IuqJDIS qJBruł\ounq I 't óls b|nureu '(rulg elnpsoł eruel^\BlsezI eluelqez .uupe:zp rc9ozs>1órłr qc'(r9ł1 .euep euuec a1 .'(1e1sar1i łr rur,{ueprue,tńd'(suz bs ezpn1
.z'0 :,.ł,| Plooozcplo lse!Płłulsł ćPuqoztlod .Óulzpevp óts tcŁ |eftłrzor oąq'(zs ó1 łr npu1e1'(zcezpe noldm qc(unp tcol o1ds1a op aluazpnuol d4 .qc{unp z {zpawĄ aturlnKl4pg .tues tuo1 fzsłrrer4 .ł\ouo] qcezĄ z erudólszrrórs 'tcŁ| .'(1rs -BpBPIs.]etueJua] 3u 1|cery1qndp1,tc 9ep'ful '(qz ąśzcb1odeSoJeT J lep€C Jp l eouelcsJelul-f,eilA. ołr1clułrepń m az ,bulzpelzp buzen lse| qc'(uup u|curo1ds4g łą r qc'tu ,.'qc,{uzc.,$erueluru -zc'(]s'{rclspoteu r >1u[,trgcrozlrt.Bl|Jet^eazodzol łIuqJe1 outngnaztcotuod ez,qcezeq M qc,(ue.n'(lnoqcezrdqcfuep lcgoll qc'tznp nrue,/y\Dlnzseztdr2l6tzp &\gpue4't oilozr 'lcgou .dnorg -ze1ez19dsn qcflrrou t1cśuzelr' euełrń.r1po uesocord qc'tuup z|curo1ds1e.. 1se[ Jeuu€c 3npe16 .1erzrrg ?ruerurz erglĄ.rr8o1ouqce1qc'ivrou nrcórserzp z bupe| o>1e| qc'(u -up ófcuro1dsąeoprqńłr Mahaa K?o1ouqca11174elcglmśzcezg...'tpa1ep|eudó1seu 9Ólu3 -brso qc'{u|'(cnlo^/Y\eJ ferzpruqluuz urdupe|.. elzpÓq tlttlp.$ue) qc'(uup e|cero1d ,(?u!u1tu .$Ie ruIoJ 1gg7 o3e1n18 z SlwaNJ4NQZ nu(ze?uul o3e.tolau:e]ur lrułl'tprłrezrd 3npe16
elculo1ds1e lso!ol oc .t.0 .:,.ffi 4ucńuep
Pfirorupeild
w ich skarbnicach. Jednak wraz Ze wzrostem popularnościtechnik eksploracji danych firmom, które nie stosujątych technik, grozi upadek i utratarynku, ponieważich konkurenci, wykorzystując techniki eksploracji danych, zyskują przewagę,W książce odkrywanie wiedzy z danych opisane,krok po kroku, bezpośrednietozwtryania rzeczywistych problemów biznesowych za pomocą szeroko dostępnych technik eksploracji danych zaitoso*u''" dorzeczywtstych zbiorów danych przemówiądo menadżerów,dyrektorów IT (tzw' CIo), dyrektorów naczelnych (tzw. CEo), flnansistów (tzw. CFo) i innych, którzy muszą być na bieząco z najnowszymi metodami zwiększającymi zwrot inwestycji.
ŁatwojestŹleprzeprowadzic 0.3.Niebezpieczeństwo! ffil:ll.l danych eksp|oracię Nadmiar nowego gotowego oprogramowania do przeprowadzania eksploracji danych stworzył nowy rodzaj zagrozenia. Łatwośó, z jaką te programy oparte na GUI mogą manipulować danymi, po|ączonazpotęznąmocą algorytmów ekstrakcji danych wbudowanych w obecnie dostępnym oprogramowaniu typu ,,czaIna Skrzynka'', powoduje, że ich złelzy cie staje się j esz cze b ar dziej niebezpieczne. Tak jak kazdąnową technikę informacyjną eksplorację danych jest tatwo źleprzeprowadzić, Mata wiedza jest szczególnie niebezpieczna w przypadku zastosowania potęznych modeli opartych na dużych zbiorach danych. Na przyktad ana|lzy przeprowadzone na nieprzygotowanych danych mogą prowadzió do błędnych wniosków Llb tez niewłaściweana|izy mogą zostać Zastosowanedo zbioru danych, który wymaga zupe|nie innego podejścia,a|bo tez można otrzymaćmodele oparte na błędnychza|ozentach. Jeze|i zostanąone wdrożone, btędy ana|izy mogą prowadzić do bardzo kosztownych niepowodzeń'
podstaw0v'ryc Zrozumienie skrzynka'': typu,,bia|a 0.4.Podejście W........ i mode|i algorytmów struktur Najlepszym sposobemna uniknięcie tych kosztownych błędów,które wywodząsię zpodejściatypu ,,czarnaskrzynka'' do ekstrakcji danych,jest Zastosowaniemetodologii typu ,,białaskrzynka'', w któĘ k|adzte sig nacisk nazrozumienie algorytmicznych i statystycznych struktur |ezących u podłożaoprogramowania. W niniejszej książce zostało Zastosowanepodejścietypu biała skrzynka przez: o przykładoweomówienie działaniarózny ch algorytmów, . dostarczenieprzykładów dziat'aniaalgorytmów narzeczywistych dużych zbiorach danych, o sprawdzenie stopnia zrozumienia pojęć i algorytmów przez czyte|nika, . slworzenie czytelnikowi mozliwości wykonanla rzeczywtstej eksploracji danych na dużych zbiorach danych.
.qc^u€p r|curo1dsąeśzl1elneusuł1v\ 9ezpenoldazrd erqerzpotuus oąqńzs oł\ołunso]sl .,Óts 9śzcneu..oąqfzs ezoru łIulolńzc qgsods ue1 ,ĄĄ..yazclzt'? t4c(uzcĄ .euozpmurds -łBJd puuod óls efnpfeuz ecztts1 Kanzpavp c.e$oz Łzsnur ezods 0' 16 |e1 .uluezczsńzc b|nqaz4od qc'(uup ślolqz auvp ,fcezt1uluJou tlnqez4od euep e./Y\oJns ,,eu -pruq.. rcsolsrłrńzcozr16 'qc'(uup llcero1ds1eezsnlJ€uocs o8elsrłr'(zcezJeluelpelclelwz -po 1se[ rl;.eIEII,JEz.euepc?|ruo1ds1e.qcńuup r|curo1ds1eóls cśzcneuazous >yu1a1śzc .(n1eureqcs) .Óąś1 r|c1ru1suo{ qcKuop z Kzpatn arunnCl4pg ezcJelsop |er9q ?courod ez .qcńuep qJBJoIqZ -4eldzazldułneu qc.Ęstrvr'fucez.l qc'tznp Bu .ĄA9luelqord 1se[euzce1ną5 elsezblmzol op qc'(uep rlcuro1dsąeo '{zper.t |eueuzodo.Ą\ouelug1Y\osoJsez l.ttoryu1e1ńzc ecŁ|evrr11zourn BIueZcI1V\9 euzc'tp1erdb,|unlnuz I I op 9 po zerc v op z po ,Ęutzpzog
qcńuBp !lceloldsło .n.n.g zoildodqcńuepllcplo|dsło oluefnńuołń'n Pluozclmc ąnpN :ouzcĄłBtd .qclu pełr Z o8epzu4 IleIeZ elueu,u.orodzuro .rlser8erełrezJpnlepou l l|cn1g'tsep1Errrezlp ,gv) o8eu|'{zńcepeMoZIpnlepotu ,e1utzpzolłr qc,(ueze1odpo1eur nlepou ZeIuMgI Ąv| tcourod ez .euułlopnqz auzcÓl o ruezsord Łs '(cru1e1'(zcl qc'(uep lgtqz ś1eluu 1se|'(uep g eIBIZpzoJłr pep1ńzrde51.o8ełroqzcl1uluezblnzoJ op '(q .n1or1 od 1oq .qcńu ?ezĄop -3p ruolqz o8e1eur op nru1,fto81e o8au1e.n1uoł BIus^\oSo]sBZ op u1rqe1{zc b|nzlyqouu er9]ą ...qc'(uepqJPJoIqZqc111erłrelu.. eu yezcln9 z l ,qcśuepr|cero1dsqe'rł9ófod qc'Łs -|e1u11qule z e]g]Ąeru b8ourod er9p1 .qc'itrorcó|od yenlw? z euo órs b|epens 9lu9e[ńłr .1u'(uupI llueqzc11z ś'neqezocelubzclelsop zeJo nł?ue]eruelue|UJnzolzyerdo1s 9lueco t1ołrzod alo1>1,aezcul\906 peuod eIeIN\ezqcKunp z Kzpatn aruoutl>1pg tuo>pu1e1tzc
.e.'.0 zsolunzoJ ńqe.eluozpMPJds o?.0!s9!u'nodn :fn9łplzpzot opBluozclfnc
.elue,trourer8ordoo8euerqńrYrc?|ułr'(zn .rura1o.r4ruKuzc Ąl1eue :urclez.u]JI{.oxo/uloc . f ue1Tnsuoc6ututu:€ ] pp ez lues e?oru>pu1e1'(zc 9ńzbpod . rVVvrA/ : df qcuuo4s eu eudó1sop?s qc'(uep ślolqzeJ .alu ?tł :q7Ł;s1 qc'(1lro1eure1ul / -eł\ou?r8ordo zezld euezpzvrerds rure8u't z :ulezelrcers er8o1odo1ułro1ru.{nłe| .ou 1sa| -esrd6 .|ełrouorneu lcels nlepou Łcotuod ez almnśzbrrYrzo.r 1se|qcńuep ruoIqZ o8e}srłr , -śzcazl u1p r|ce>1gńs€ p l eIuBp€ Z a|elzpzol łr pu;r1fzrd e51 .qc'(uep ł\gJoIqZqc'tznp L qctuzgl uB,ĄĄoSoJsBZ op 't.r9ur1'(ro?1e ,,(pep'{zrd€zcJ?lsop t1c{unpz Kzpatu aruout'l4pg
.z''.0 qcńuBp nJolqz 060łnp 0pm9ulfuo6;e o1uemosolsPz 'npJo{oJ o8euep€Ip I IceIS|euep.t.rru,(ctfe'trńrB'(llrruouomou órs e7a1o rcers8e,t d'(1'tr9p1,śanlzp .dru8 .euurupn1ąen?s -IM Zelu'tnog qcTo^\S DIpoJ9 mluruoDl ł\ oue.,vrnsezrd 6elevpzoJ./Y\ .eru4'fto81ełr e|elzp órs oc .o1 dnr8 qpor9 8 e|evpzol łr pep1ńzrde111 1erur ąe[.'trurzprrvr -nzolz oI1Y\Ic'?ł.ł\ ńq >Iet.qc'tuep ruoIqZ HqgJd |etruurruercńzn z .1fi9.rJd1ńso31e ą1u1e1'{zc t4cśuz9lesuenlu r e|cerodoeu|e1o1euusrdobs t1cKuopz tzpalu aruomfu4pg ecz?ts1 16
. p!upłPlzp filgluutto0lP 0luorn9u0 t.'.0
Na przykład w rozdzia|e 10 czytelnik mazazadanie odkryć pewne' z wysokim poparciem, reguły do przewidywania, który klient zrezygnaje z usług firmy. W rozdziale 11 czytelnicy Sąproszeni o stworzenie wykresów przyrostu i zysku dla kilku metod klasyfikacji dużegozbioru danych, aby wybrać najlepszy model.
jakoproces danych 0.5.Eksploracia ffi,.;., Jednym z btędnych przekonań związanychzwdrozeniem eksploracji danychjest to, że eksploracja danych reprezentujeodizolowany, gotowy do użycia przez dztałanaliz zblór narzędz| nieistotny dla głównego projektu biznesu lub badań' Organizacje' które próbują wdrożyć eksplorację danych w ten sposób, bgdą miaty bardzo ograniczone szanse na sukces. Dzieje się tak dlatego, że eksploracja danych powinna być postrzeganajako proces. Odkrywanie wiedzy z danych przedstawia eksploracjg danych jako dobrze zorganizowaną metodologię, silnie powiązanąz menadżerami,decydentami i tymi, którzy zajml1ą się wdrożeniemwyników. Tak więc ta książka przeznaczonajest nie tylko dla analityków, ale również dla menadzerów,którzy będą musieli umieć porozumieć się w języku eksploracji wiedzy. Jednązlzywanych metodologii jest CRISP-DM: Cross-IndusĘ Standard Process for Data Mining. CRISP-DM Wymaga, aby eksploracja wiedzy była postrzeganajako całkowity proces, od zrozumienia uwarunkowań biznesowych, przez zebtanie i zarządzanle danymi, przygotowanie danych, modelowanie, ewaluację modelu do jego wdrożenia.Dlatego tez, taksiążkajest ptzeznaczona nie tylko dla analityków i menadżerów,ale również dla osób zarządzającychdanymi, projektantów baz danych oraz decydentów.
podkreŚlaiace graficzne, danych analizę wstępna W:,;0.6'Podejście W książcepotożononacisk na graficznepodejściedo analizy danych' ZnajdĄe się w niej ponad 80 zrzutów ekranu przedstawiających wyniki komputerowe i ponad 30 innych rysunków. Eksploracyjna ana|izadanych (ang. Exploratory Data AnaĘsis, EDA) reprezentuje interesującąi fascynującąmetodę,,rób po swojemu'' dla dużychzbiorów danych. Wykorzystuj ąc wizua|izację i podsumowania numeryczne, analitycy stopniowo rzacają świattona zŁozonerelacje ukryte w danych. Uwypuklenie techniki EDA w eksploracji danych idzie w parze z ogóĘm podejściemgraficznym.
iesttaksi4żka? W| 0.7.Jakzo]ganizowana Odkrywanie wiedzy z danychjest obszernym wprowadzeniem do tej dziedziny.Pokazano, jak eksploracja wiedzy zostaławykorzystana pomyślnie(i nie tak pomyślnie).Popularne mity na temat eksploracji danych są obalane, a Znaneputapki sygnalizowane, tak aby nowi adepci nie musieli slę uczyć na wtasnych błędach.
.9'0ł3ł\4l(ł\ I DI1Y\9Z?>Is^\ oZs€ . /K eZ ótnĄóvq.ócurd ?łe^\ols -n[pe er9q ,snprc7 fffqffg ZBJo Se>IJEg u'(1esog ecuelcsJelul-f,elłń' erłr1crułrup,fun rrr o8euzcruqce]?JoDIupeJ?pelsqou ?uelsJry '(c.tepńłr o8e^rourer?ordero1euńprooą.B.eJ -ollol trepn 'eropleper '(couod zeq euusldeu,(qo;z1sozaru qc(unp z tzpatu aruouCttlpg
.6.0|ffi PluP,nołoEpod .qcńuupzeq .fu z2Io eruerYroruer8ord uuu8uur,irr lse! eIN 99oruofeuz 99ou1ó|erurn .n1eue1eu -e8eul'tłr eru e1e nluełrouudo łr cgurod e?our ]se[ ur'Ovrołlu1spod eruorzod eu .,(ue3uru'ilr ,1ntrulzpzol z vlełezp qńłs,{lułs pep1't16 ez eru ś,no4zctuzg.I 1se| {eunqcuJ .qcDlsJe1sr8uru -zorpod u,(upe| ezod .Ą\9lpĘs qc'tzspo;ur qn1 qcr)1ce|cuecll1Y\9Ipn1S 1e1 qc(uop z Kzpatu aruonfu1pg 1e1qc'{zsre]slrr9luepn]szazld aue1s(zro4ńłr 9tqezolll .qcfuup llcero1dsąe wpez ruorgz op WCI-dSIU3 rrSolopoleu po eruu,Qdecbzpoqceztd,euzcrńolalceluazetd o iqcz(uepÓząelrc budólsłr ect [u19eqpod, auzcgel3 arc9|epod o |euzcś1neldaluezilM? _ .h\głevpzoJop ?IueZcI^i!\9 .qc,(uup ,ł\gJoIqZ qc'{7np .tł9ru1fro31u op eruułrosolsuz.łrgrufio8p '(srdo * :nur/ro81e Jrułru1s qcń.trołre1spodoruerrunzolz eU łslcuu ecbpe;1 ...e1ufzqs ep|q* nd,! elcs|epod o i nsecord o>1u I qcfuup lfceroldsqe eruer.relspezrd o :9lue3op?8our '{c.topuplĄl& 'tu'tłrołre1spod erurorzodtu qc'{uupr|cero1d -$Ie Z npupl'furop eąruzcórpod ó|c1unguru1edsercgrłr'Łco qc(uop z Kzpatn aruouK-t4pg
z lzpa1n o1e!qc^uep opewfu)tpo.8.o łluzceJpod }{;ą 'WC-dSIUJ uSolopoleur ^\nlepotu rfcen1u'ne śzeyop bza1eueJoDI .nlepour ^'(ueco łpqce1 srdo urelłtez II łe:zpzol ncyoł ł[ o .IuD Z€Jo tlotłd y ńt4d.lo31e zezsdod euozl -ołr1.eu['{cu|cosu '{p8er n1ts euerłruruoiyez.rufołs €luupuz t|zci1op 0I łuIZpZou. .(6 .urue./Y\od trevpzol) euouoqo) IIueIceIsz ZeIo (g rylzpzol) qolupeJ'-ł -nr8 o8euzclqJJuJolq ttuepoleru z .Btuu..trodn.r3 u;uupez bzcĄop 6 1 3 'Qu1zpzog o . \L łevpzor ) Iłc^,Ą\ouoJneu ,(g IceISI (9 plzpzol) qc'tu|'fuńcep,/Y\eZJp 'rngpelsŁsqc'Łszqqleu-r1 '(u4'fuo31e 1ulzpzol) euolł\9luo qclu .t\'Qe1sozi1fcur1g'(su1r1 B|u€ p Bz op órs bzsoupo g,g ś1evpzoao L| 'qc,tueprfceroldsla eurepez o3eu1er4uo4u1pqcńuup l|cero1ds1ep11uqJe11 'tpo1eurerłre1spezrd1etzpzol Kp -?B) .I^tr(-dsluJ €Iuz.ł\olepotu bzes z euezblnz auo ts p{?ŁIq oupes Ił\ou€ls .ł\9łBIZp I -ZoJ luapels qcńudąseN .qc'(uep alloe|:uu;nzolz r erue^rno1o8 śzld ze1 suzcpod Ezczsęłlrtiz .ntrCI-dSIuJ bt8o1opo1eurz ant|upo?z rueluezp€'t\oJdłr ts ś1elzpzolKz4 ezslrl.:ol1
Chciałbym również podziękować doktorowi Chun Jin i doktorowi Danielowi s. Millerowi, moim kolegom z programu Master of Science in Data Mining w Central Connecticut State University; doktorowi Timothy'emu Craine'owi, dziekanowi Wydziału Ma. tematyki, doktorowi K. Deyowi, dziekanowi wydziału statystyki na University of Connecticut i doktorowi Johnowi Judge'owi, dziekanowi Wydziału Matematyki w Westfield State College. Wasza pomoc byta (i jest) bezcenna. Dziękuję moim dzieciom, Chantal, Tristanowi i Ravel, za dzielenie ze rnnąkomputera. W końcu chciałbym podziękować mojej wspaniatej żonie,Debrze J ' Larose, za jej i umiejętnościkorektorskie. Ale słowaminie mozna wszystcierpliwość,wyrozumiałość kiego wyrazić... Daniel T. Larose, Ph.D. Director, Data Mining @CCSU www.ccsu. edu/datamining
.w(uDp lfcolo1ds4arulepetrą'Łrdbs euo1sq s1 .qc'(uupl|cero1dsąeyepezqctzs|eluzen|eu z ru'(upe[1se|e[ce1g'(se1ł.9nł -uVpZoI z '(uelzrropó1s ąe1 .łt9dĄ qcńupo8e171 tecfin |eluul z o8eupe|op zn? 9emoł ..cu1.SSdS .eur1ueuelJ -g'(su11uz ńqe zezld o8euepfłr € I ll?1Y\ourer3ordo vll'śzuelueJg qc,'Łs.t.rreldz o?eupa| ołuf .BIueZJe1'tpo1erueuurt,Ę1e;e |erzp eąer llce1g'$uepl ,ĄA9łoDI -req 9'fu4po śqe,nalzp p9J'1Y\n?zglll ułeJ 3u g€1Y\oJoIłc€Z.,r.rg1pud'(zrd e1pqcńuzc'(1eue8 1ń9poł qcduup ńzeq ó.topnq 1ec o1u[ płre1sod.o8ecrq3 łr plrdso11 IBIJoIuetrĄI s.uoJp .[g] reruerg cug .qc'(u1euaT.ul9 1Y\9ł 1rq3 np1rdzs łr n8zgtu IueDrcJpuu uupeq rop1er'tp .pedfizld Ł.tło1odgr^rerdI VSn ztrDIoJ oc rurńue.tozou?elp €Iuu^\oJoqJ€z n94ped(zld ruructrsń] g elt.rurdz ,lcalzp p9J'1Y\n1er Łuerurpo ult|zs|eruvor3|uu1se|n3z9u zng ...cIzpłtBlds 01 ouprul 9,{qouulłrod elg .e|nurquIoł'oJ oq1e .'$z8oq óp,uurduu oqp 1sei ol .^\9tuop aru.t,$ 7I eu I |ecpq qnl 1€I u>1rł|.elnl1se|9o14..I1rl?e|I nd'(1o8el euep 9B^\Dlnzs'(tn -1u fiu9ruutłrod ez .łeł\otunspoduo1ur13.1em9tń.r461 l ńuop ezrrrzp.turd7 .łrgserpe peurureqopnłr91s'(rorre1 qcśu49l7I rńpozrroJd.€1eI 7 4ry |ecgą nfuq .trtr'{qt łew.epy z qc.{łro1'(peĄue1 0g łBItułrg1sfrouel Z uepaf .elz $000 09z ul{ułrgr luepl€s wśuzcbtr -uq łr euz.t.rńłroqcńzrdĄńq nqceuuz qcec'terds 9 o eusp ez .1'tqpo I qc?lueunsuoł o qc,tuep rcgop erur.,ŁJqloq€./Kozl1elrcazld1gg rcue8e ruIoJ I00z ulu'ezJ^\ II zq)vruazl -up.{łrod o8n1peluez .1eruurods n,|7f |auzc,$er4orueq1uzd B1ń]cIu^loJeDI op ur,tuułror -err1s.nąor 7gg7vpvdo1s1g z nruel^Ągluezrdurrołrsllr uo]uIIJ pg luep,Łerd 'Ę'tg .ngord o8eu1enprłr'(pur o8e[ er^re1spod eu B}ueIpIo8euup op o?emo8q1ełJ€Iu erc9|epodd'! 9ułroągĄusplz e8uurod qcńuep elcero1dsąg .ezszne1ercleu(|e1uelp qnD o8eru e1p cńq b8otu oJ9DI.n>Iuzqqce8n1snl qce14npordqc'łYrouo .(uzłrourro;urod9e1s -oz 139lll1uerp1ńpzuą ńqz ąul .e1uerp1rtgord qc'(u1unplłr'(pulop dó1sopb|eu ucueuy Jo {uug ł\ eluelpl ńn1sqo n14undololJl.Ą\elspozldane1e7'ocslolluJd ues ,tr BcIJeIuV Jo )tu?g 1ll qc'(uup lĄ}ezeq eu o8etJedo nautle{mtu rop1er'(p r sezerdecrłr .f1ey srrq3 ut .erup -glu ...u1uat1ą qez4od o8epze4 op cułrosudop eI'Ą\qZoIu ńuecqc |erde1|eu firego .elu Kzs.o8ectluołrzp Iluuluu^losele7u|ez -o3'(1p1npord9emoure14el1sEruIeZ* z łBupef eupo8z otrńqśzc .o3e1po aIuZaIeZeIu.ełro8ur1e1reru eruezso18oo{ues o1 pzs'Ęs 1ueq1 .tI] g13 śp1eą.rcso1zsezrd t|uo4s zqcŃnp l|curo1d lezs.trerd ^A 3661 u|uul z autzo?n7Ą1 .ecueuy -qe o e1ru1,(].re łr ouepod ruIuBq o8erupoqcsłrBIpBlueIpI vzazlqśn łuf Jo {u?g óls e|nqe1uoą^AgłueIpI ^\guoITIIu ńn1sqo rrrru1uecZ eluzcluo1o1e1 €I ołoło cblseruro3
qcńupp opoluozppfitoJ ;lculo;dsło
danych? Wł 1.1.Cotojesteksploracia WedługGartner Group [4]: ,,Eksploracja danych jest procesem odkrywania znaczących nowych powiązań,wzorców i trendów przezprzeszukiwanie dużychilościdanychzgromadzonych w skarbnicach danych, przy wykorzystaniu metod rozpoznawaniawzorców, jak również metod Statystycznychi matematycznych.,,Sąrównież i inne definicje: o ,,Eksploracja danych jest ana|izą(często ogromnych) zbiorów danych obserwacyjnych, w celu zna|ezienianieoczekiwanychzwiązklw i podsumowania danych w oryginalny sposób, tak aby były zarówno zrozumjate,jak i przydatne dla ich wtaściciela'' (Hand i inni [5]). o ,,Eksploracjadanychjest międzydyscyplinarną dziedziną,Łączącątechnikiuczenia maszynowe go,rozpoznawaniawzorców, Statystyki,baz danychiwizua|izacji w celu uzyskiwania informacji z dlŻychbaz danych,'(Evanggelos Simoudis w Camena i inni [6]). Przewiduje się, ze eksploracja danych będzle,jednym z najbardziej rewolucyjnych odkryć następnejdekady'', wedtug magazynu internetowegoZDNET News L1].Rzeczywiście,MIT Technology Review [8] wybrał eksplorację danych jako jedną z 10 nowo powstałychtechnologii' które zmienią świat.,,Doświadczeniew eksploracji danych jest najbardziej poszukiwane ...,, wśród ekspertów technik informacyjnych wedtug badartt zarobków w roku 1999w InformationWeek[9]'Badaniepoinformowato:,'Umiejętności eksploracji danych są bardzo poaządanew tym roku, poniewaz organizacjestale umieszczają swoje skarbnice danych w Internecie. Efektywna anaLizainformacji od klientów partnerów i dostawców staje się wazna d|a coraz to większej |lczby firm. Wiele firm wdrożyto strategięhurtowni danych iteraz zaczynająsię rozglądać,co mogą ztobić ztymi wszystkimi danymi' mówi Dudley Bfown, wspólnik BńdgeGate LLC, firmy rekrutu. jącej pracowników w Irvine w Ka1ifornii.'' Jak powszechna jest eksploracja danych? Jakie btanże korzystają z jej dokonań? obecnie jest ona wszechobecna, obejmuje takze niektóre zaskakujące dziedztny' Rozwazmy poniższeogłoszeniepracy [10]:
- GRUDzlEŃ 2003 WRZES|EŃ SrnżysrłzE sTATYsTYKI: Pr aca z drużynąkoszykówki Wymagania: . opracowyw anie i przetwarzarriedanych do formatu używanego w modelach statysĘcznych, o rozwijanie statystycznych modeli prognozowania z wykorzystaniem regresji, regresji logistycznej, eksploracji danych itp., o znajomośćpakietów statystycznych, takich jak: Minitab, SPSS' XLMiner. Mile widziane, ale niewymagane, doświadczeniew rozwoju modeli statystycznych. Kandydaci' którzy ukończyli kurs Ze statystykina poziomie Zaawansowanym.interesującysię koszykówką i kochający tę grę, powinniprzesłać życiorys z listem motywacyjnym do: Boston Celtics Director of Human Resources 151 Merrimac Street Boston. MA 02114
.IcóIuBd lc'ouruefod I |eAoIuoZcIIqońJouI JsoJZł\'(u]orłrez o .qc'(uepr|cero1ds1eop Pluz1hotu€r8ordo o8eu|'(creuoąo3ełro1o3łrgteqed |gnzol o .tulouo>1e [eu1eqo1? łr n1ufu nłelzpteruuzs1ótłrz eu rfcuerru1uołłslczu . .n1eue4ut I n]oue]ul z l1cśuepop ndó1sopo8euozsąóltz ?FotYtI|Zoul. .qc'(uep śzeq|euenńzn .|eupo3't.lel'uop dfi sop oprur om.1srorqórspezlda1ec'(qe ąe1 .qc'tuup qculuł\ouruł,tr qc'(uep eruełrń.troqcezldo 'qce1e>lreruredns.tr. nuBJeuBłSezpe1n(zld Kzszl|nodpb1ąńzldeu.qc.(uep 'trgJolqz JsoJZ^lńu.t.roqen8 o :'t.lo4ruuńzcqcśuzglórs aruezo1euacb|e|,|zldszazld ńuezpóduu 1se[ tzpelln uruz'tńrąpo l qcńuep rfcuro1ds4eorurzpazp,ł\ lsoJz,t 'Qą'(tzeru ńct|e'rrr1 .99orptu ,t qc'(uzcrurouo$I€] MeZIpl1śzc,ózpaln n .łr9ąń1qeueqc,{uozcrłrc'furXq qc'(uupqc'Ę qc'Quc nIIJeZIefu\eZrd łr qcńuełro>1g1ełr4,tłr .ulzpelzp rcgozsąórrrrłr rur'(ueprued'(sez .zu1|acb,|ezcre]sńłr 4erq lse| |ezcelaneulelqoJd .lcsolstlyt,(zcezl .z(tuse1se1 .llcuurro;ul l qcńuep qctcb|ezclels'fur ztt ąurq ]se[ eru lueluelq -ord |ersrzq Pu ńurrfuarc ep .qce|ceuuoJul 1V\dtuetuo1..ez,1śzennez11lq ,o.śzpalnt łBJq -SIBN uqof [71l spua4n3a747 aczbtsą |e!o,tts^\DIoJ '86I '!\ zn1 .bznperu.n1eąruurredns po Ic9ouZeIBZzlr.eluqopodopłrer4;rfcururo;urlepc |e1z fiuelru1sńz ózper.trrb4e1i9elzp -ol1(opIłIIluZ órs euzolu o?ezc ąeupe1.qc..(uepoznp 1se|qcfuozpuruor8 en9urt,Łc6 .euełu8n1sqo ,lllzpol qc'(uut r ,(urzpor 3S oJ9DI |e|ołr1eruu.todnąn9|ezc['nz |acbzcś1op rlcuuro;ur z t1ńou .qc'(uep ewq M ptzr .,i,vrouezceuzo enólu4rd epvey' ,,ó|cefutlesqo.. .n1eąruur.ledns IIB4uecłr órs qc'(cb|np|euzqcerełr.reseu euBpqc'(cŁfn.troqcezr ru1se|erop e[ qcńc?|e|rq.u.qcńzcłr'(zodsqce1ru1 ślleeu ełroąsud'(poą qc'(c?|e1śzcnorclseąsetue4rd 9ezs'{1sZsezopeDuuoluq o qc'(ct|e8e1qIcelzp zcoldo zsńzs'{1s'(pe1łroJ ć?3q3nłsl Kzco tc otrśzmpz.erce1reruledns ru,&np .u ec[e1o>1 n cb|e>1azc tz3 9ba1urcząerm1o>1'(pep1óts
g'Z'| :,,,:,f elcuroldslo o0ozgpl iqc/tupp .eIIBpce^\oJo1dsąe ołr'(z uu {qe pecue^pv 9enśznotrózcez !noc5 yg5 u'Ęrup 6T,Z gI ,|evv9d.b[cunl.{s bl z óls 9erodn fqu .er8e1ur1s 9but.t.rzor43our śu(vn:pz izrcueĄ.llceurrogur |e1eu órs ct|urerdg .n]nZJop śu(znspz r3e1oąelp 99o1Y\ -ł?orrr ouur,tod .ĄA.9łIu./V\I3aZrd qcgłrp zazld etcś,s4ezolunu .'Qeul o.toąlŁ|'tłr ?eZIeMts .u8urłrgu>Iclłed.łros1cru;'1o8ełro1porsq'fuq s1ng o8ec 1'(qłrgsąctuy ye1garyluecord -tq3 '(ctupołrez'(pel; .l1śzennvzelu erułuepl^\eKzlnlue4qc'ftgq ,eclozwu1'{-rqńłlqc'{u -ep e|cero1dsąe,otreze4oó1s ry1 .lelep łeł t .leułttcazrd '(uńznrp Z ł\głIupo1Y\ez lłcgtilrp zazlde4tupontezelcś'l4,rnl9|qz.errrepod,ś1eząs.ezso1łe!qcplul .śfi fapveąZ (.IleZIep -f,t..eruuo; łt .uol1elJossY iluqte{seg IeuoIłeNzazldqcśuvll;lz4qc'(uep €u ouo ełEIZq .eruułroruer8ordo o1 cz'toqgrd'ilr óls l1lzpoBz śzry1n.sącru;trłJo^ .ĄĄoNop órs łrcgll^Z .IJBpu?Iłg .qłrgą'{zso>1uBJ .qc'(uup ./Y\1(9cJoZ^\eruełr'{q,{zvrop śuozceuzezld PIIoł\& .1noc5peclle^pv 1se[.o8errepueqge1edrepu1zezldńuozpu.trord19dsezzazld Kuozlo.tł4s .[II] tnocs pecue^pv qc'{uep lfcero1ds1eop Wil ńurrg uluełrotuer8ordob|enśznśzł -9]ł .$Icru) łJo^ A\eN n1or4 z1eru'(zl1opeutznlp śqe,euqeząod euo 1se[ezou 9fg .qc'{uepb|cero1dsąeórs iect|nurlez '{qoso elru1nzsodscĘIeJ uo]Sog uu'{zrup .ąe1
przezcz|owieka danych kierowania eksploraciq 1.3.KoniecznośÓ W.|,...,.. Wielu sprzedawców oprogramowaniasprzedajeswoje analityczne oprogramowaniejako gotowe aplikacje typu ,,:włącztlzywaj,,, które dostarczająrozwiązania trudnych problemów bez potrzeby ludzkiego współdziałaniai nadzoru. Niektóre wczesne definicje eksploracji danych skupiaty sig na automatyzacji. Na przykład Berry i Linoff w ich książce Data Mining Techniquesfor Marketing, Sales and Customer Support [I3l podali następu. jącą definicję eksploracji danych: ,, Eksploracja danych jest procesem badania i ana|izy, za pomocq 7automaĘzowanychlub na wpót zautomaĘzowanych środków,dużychilości danych, aby odkryć znaczącewzorce i reguły'' (podkreśleniedodane).Trzy latapóźniej, w kolejnej książceMastering Data Minin7 [I4) aatorzy ponownie spojrzeli na wtasną definicję eksploracji danych i stwierdzili : ,,Jeie|i czegośmamy za|ować,to jest to wyrazenie ,,za pomocą zautomatyzowanychlub na wpót zautomatyzowanychśrodków''..., ponieważ czujemy, ze za dlzo uwagi zostałopoświęconetechnice aatomatyzacji, a za mało badaniom i analizom. Było to mylące i wiele osób uwierzyŁo, ze eksploracja danych jest produktem, który moina kupić, a nie dyscypliną, którą trzeba opanować''' Bardzo dobrze powiedziane! Automatyzacja nie zastąpi udziatu człowieka. Jak wkrótce się przekonamy,Ildzie muSZąbyć efektywnie zaangazowani podczas kazdego etapu eksploracji danych. Georges Grinstein z University of Massachusetts w Lowell i AnVil, Inc. stwierdził[15]: nakazde pytanie, jakie jej zadano, Każdepy,,Wyobraźsobieczarnąskrzynkęzdolnądoodpowiedzi jak wielu sugeruje? Wprost przeciwnie. Zasadniczy potrzebę uczestnictwa ludzi, to tarue.Czy wyeliminuje problem sprowadza się nadal do kwestii ludzkiej. Jak mam poprawnie sformułowaćpytanie? Jak mam ustalić parametry, aby otrzymać rozwiązanie właściwedla konkretnego przypadku, którym się interesuję? Jak mam otzymać wyniki w rozsądnym czasie i w formie, którą będę mógł ztozlmieć? Zauwaz, żete wszystkie pytania łącząproces odkrywania ze Inną,z moim ludzkim użyciem.''
Zamiast dopasowywaćlrudzido eksploracji danych, powinniśmyzastanowić się, jak możemy zaprojektować eksplorację danych jako bardzo ludzki proces rozwiązywania problemów. Ponadto, moc potęZnych algorytmów eksploracji danych wbudowanych w obecnie dostępnym oprogramowaniu typu ,czarna skrzynka'' powoduje, ze ich złe lzycie staje się coraz bardziej niebezpieczne. Tak jak to jest z kazdą nową techniką informacyjną, eksplorację danych tatwo jest zrobić źle.Badacze, naprzyktad, mogą zastosowaĆ niewłaściweanalizy do zbioru danych, który wymaga zupełnieinnego podejścia,albo mozna ottzymać modele oparte na błędnych załozeniach.Dlatego też wymagane jest zrozlmienie konstrukcji Statystycznych i matematycznych modeli |ezących u podtoza oprogramowania.
Process: CRISP-DM Standard 1.4.Cross-lndustry ffi,'llttlt W niektórychflrmachz powoduich sztywnejstrukturypodchodzisig do eksploracjidaotwarte powielasięwysiłek,,:wywarzając nych w sposóbprzypadkowyi niejednokrotnie wzorzec,toznaczy niezalezny drzwi,,.oczywiściebyt wymaganymiędzyprzemysłowy
.€ru€./Y\olepouJ nduła op ópód bzslsózc|uu oą1'$ 'ture|nze>1od 'fio1sord e1p 19J1!\od lłrgduteqcrupezrdod z o8epze4eruerłrurdodop a1ń11eue9ełsepob8our l[cen1u^\e sezc .pod euuurdzr1oqru.,(llre1e,eu1v7elqo'ilreruo] ZuIcotłJ .ndu1eo?apzeąsśrcz Ńseze4od .qcep1e|ordqc'{łroułr euorupó18zwn ezswez qcru 1se|lezruo4 9'(q '(uur.tod .'r.rgtąe|ord .orupezrdod .pezrdod z e7Óru?b,lcś'.Ąó. DIsoIu1v[ oc nue1d o3eu193o o8eures o3ol Łcoruod Bu?ou oJ9DI.II]So^DI qcfc?|nsere1urqc'fus1upop rzpu,tł,ord o8szc vz cenśzblnzor '{pe1t.r -.ĄA€p€q qn1 o?ełrossuzlq nuelqord o8euo19erąoeruezbrrYrzolo1sóz3.8?qo t|uzĄóunez zazld eu '(rrełrozqoqur'(s n8o1opo1eruJepI€J€qc '(u|'(cere11 lse| 1'1nąunsńr dSIuJ 'nlapou t|cenpłre nd -3łeop |e1epdurerzp|ezldunrcz.€rueluuo{Sopn o8ezs1epnlec ^\qcńuep uruezvroło8'{zrd op ruezsnluz ?e1soz '(ruezoru nleporu qcec I uru€.ł\oq3uzpo Ic'ouZeI nde1eop n1or.t.rod -uz erdu]eeu .(ruge1se[ az ,pep1śzld, zezld euez eu .śulz91e7.pIłBZJ1S ld.€ I u€ ^ \olepour .ndulo -e>1s't.r ruredula ńzpltul IJ,ouZeIaz ?s ecb,zceuz o8etupezrdod z łr9>1 ie1zpreq|.e5 .9ełrosedopeuzoru .Kzceuz -tu,(t.r po tze1ez otsózc du1e rcgouleloł 1!\ '(udłseu a7 o1 ze1 99ou|e1o4az,śulzenrftZ.I.I nąunsfr uu ouuzeąodąe|..t.r9de1e nIc'eZSz óts upup1s qcńuep rlcero1ds1enp1elordo8euep ercńz p1'(c141C-dSIuJ Łl8o1opo1eurz arupo?7 .|ezcłrepeqqn1 fełroseuzlqDIJ9Iuołłrgure1qordeluu lr'(zbtllrzol l3a7 -e;1s qcńuup op r|curo1dsąe |eu193o eluu.t.t,osedop secord f.t.roprepue1s ńud$sop erqg?o .rcsouse1łt .uJN .ssds .re1s'fuq3reprreq z łr9>1'fi11eue nłu(tzeq.ezcle1sop dSIuJ I zezld nnol 9661 1^uuoZJo.Ą{JS ełB$oZ [qt] (lto-aSHJ) 8urur1,n€1€C JoJ ssecoJd pJPp -uą5 '(r1snpul.SsoJJ el8o1opo1eyq.eruu.ł.rouler3ordo l evpÓznu.n1s'(ruezrd n|uzpor op urfuf,(celdupe r ru'(uffcerelrureseco.rd lsel WC-6Sp1J 'I'I 's.{U
sześÓ etapÓw CRISP.DM: 1.4.1. I. Zrozumienie uwarunkowań biznesowych. Ta pierwsza faza CRISP-DM moze być ńw niez określanaj ako zrozumienie uwarunkowań badawczych. a. Jasne sformułowaniecelów i wymagań projektu w terminologii komórki biznesowej lub badawczej. b. Wykorzystanie tych celów i ograniczeń do opracowania deflnicji problemu eksploracji danych. c. Stworzenie wstępnego planu działań',zmierzających do osiągnięcia tych celów. f. Zrozumienie danych a. Zebranie danych. b' Wykorzystanie wstgpnej analizy danych, mającej na ce1u zaznajomienie się z danymi i odkrycie pierwszych za|ezności. c. ocena jakościdanych. d. Ieze\i trzeba, wybranie interesujących podzbiorów, które mogą zawieruć wzorce. 3. Przy gotowanie danych a' Przygotowanie Ze wstępnych, surowych danych ostatecznegozbioru danych' który będzle wykorzystywany we wszystkich następnych fazach, Ten etap jest bardzo pracochłonny. b. Wybór przypadków i zmiennych, które będą analizowanei które są odpowiednie do analizy. c. Wykonanie ptzekształceńna pewnych zmiennych, jeżeli jest to konieczne. d. Wyczyszczenie surowych danych, tak aby były gotowe do wykorzystania przez narzędzia modelujące. 4. Modelowanie a. Wybór i zastosowanieodpowiednich technik modelujących. b. Skalowanie parametrów modelu w celu optymalizacji wyników. c. Pamiętajmy, ze częstokilka różnych technik moznauzyć do tego Samegoproblemu eksploracji danych. d. Jezeli trzeba, wróćmy do etapu przygotowania danych, by przybra|y one postaĆ odpowiadającąspecyficznym wymaganiom danej techniki eksploracji danych. 5. Ewaluacja a. Ocena modelu lub kilku modeli, otrzymanych z etapu modelowania, pod względem jakościi efektywnościprzed ich wdrożeniem. b. Ustalenie, czy model rzeczywiście spełnia wszystkie za|ozenia ustalone w pierwszym etapie. c' ocena, czy są jakieśważnecele biznesowe lub badavtcze,które nie zostaływ na|ezyty sposób uwzględnione. d. Podjęcie decyzji co do wykorzystania wyników eksploracji danych. 6, Wdrożenie a. Wykorzystanie stworzonych modeli: Stworzenie modelu zasadniczo nie stanowi zako(tczenia proj ektu.
.1ep 'Ąe-olnq'&l€ qJlupel1^odpo z eveuJlzJlo ?fq €plsnur IbDutDI1aJ fazsantd op &opaads tlDp po rup Dqn7 Eu:uelloo;z pep1śzld?N .ullle,troleporu sezcpod e1śzn9e1soz '(q, 18oru ar9q .ouuoTulzeałou ewzcÓl erudó1seu3 .euueTulzr p1pud..Łrdect|nsere1ur9urerq,{r'reruzcór r1ers 9e.u,{urdz4o .1.{.r4poezcepeg -nht .1os zezld dl1sop '(uozcruur8o eru o1 .euf'(cu1er1se| 51n} qc.{uepezeqzenolĄc ez
qc^uep o!uPmolo6rtild'e 'nsecord yezJgl^\od qc.{urrro1zso>1 op 9tzperrrordezoru '$9.qs uu |elnt etcgtgdz, p3 .qc.{ueprlcero1ds1ensecord ndele o8eusezcłr o3e1 f1zsor1 equ|cue1od I 99oupru1.ó8u't 9uruecop tuur.trod'(c,(1rpuee? .{IlgeĄpod ..'eurrro1zso>1 lezcur óts opze>1oeluepez.cbl^\gul oł19Ą:r.uTu z óts cerurnzorod I.ĄdgłBlzpt1cśuvglz.Ą\9ued$Ie 9valaaz:cu;e7ez ołBzeIeN..:.ĄA9ueds{e-elu elp ełelulnzorzelu elcl^ro{łuce1,(gqc,(uepezeqoz .pIeJrtll9eDlpod azcepeg .uizc lzld qc,(uplcue1od qc,.{łrqzour 6669 ..{}elzsre.ĄA zazld auezcrc1sopŁs er9l1 .qc'(u|fcuem,u3 qce8ra1s o efcerruo;ur |e1uulfeuoc z tupel ct|epod eln.toqcezrd zetumgr 51n} .npoqcolllus o8epzeą e1p śzepazldsłrgpoą |ecórłrqnl 0' ołoło oppeJ' zen,Ku .'&91t"wtń -u.Ąopngz pgqcou?s du1e.r1uo>1 erzpB r o euf'(c1npord ś193azczs elielt.łrez łutsoz 1e|.urĄ SIno .(snÓ - ure1sń5 uor1 0' oło{o e|nu|uz I .t\gpoqcoues qJ?uo1rru 1 puuod o ó|ceIuJoJuI elel/[ez fuptł .BIIIJoJuI'{llrenÓ) ra1sdrq3re1ruru( '(uuu ,t\gpoqcollles rc9o>1u[ o 1[curulo;u1ure1s'{sŁ[n]s'Łro1.{n ezcupeg
qc^uep 0!ua!unzorz'z .Ic'ouzel€ z e.ĄĄIT -zolu euul 1 e19dr4po 9ułroqgrds,(qe .qcfuep rlcuro1ds4e {Iuqcel qcruperłrodpoeTu€ . Ą\osols?z01 upld Łue]B]ZsJeł\ rufu1er1uo>1e r8re1s ured't1 ur.{r4e.r1uo1śzpótu,lnazhtmzlse|.{zJ . rurdugopod z avezblmodhs rc9o1zsszrd z e|ceulep1el śz3 o itc9o1zsśzld r'r rure8re>1s 6ruńu[.(cuere.łr3ruru8re1s,(zpórurod rcgouzepz1gdsrrrts .{z3 r :ect|ndó1seu>1e[ er1e1.eałoseuztqfrue1qord eĘeĄuo{ J€ ^\ołnuuoJs 13oru ezcvpeq .,t9poqcou€ s 1|c>1ru1s -uo1 z rurugeds1e urfuzcruqce1 ts ,(zr9u1 .rurereru'{zurrur śnopep1uzz lmouszol zezldo4 .łr9lue41 r|c1e;s,Ę -us e.to'erdodr rur.{u[.{cuereł\3 ruru8re>1s ez qcślrczblmz,ĄA-otzsoł eruezslaruurzlsel JeIsdĄ}aFII?o rueleJ
. qcńmosouz!q o!uo!unzotz l uPilołuntpmn :e1sfuq3re1ruruo.Ątopoqcouesqc'(cbzcĄop qc''(uf.{cuurerrr3 qce3m>1s ^\ecJoz^\rl€ peq qcezcuerN,tr 9y relsdrq3JeluJls( z Jeupurl opFD I qJezcuerN rrrue8urqnl .r,r, n1e1.{sre.nrun z ddrg ueqc -o1 :e1sńrq3uelurl?o BIp urĄ .trr.łrgpoqJolu€ s 'ĄA9]uecnpord e1pure1e1frorrdppeu 1se[rc9o1et eruatumede7
lf ll WO-aSIUO !lcpzlUepuels pluBlBlzp pPilł{zJd nsecoJd oooMołsńtuoztd :t|c,{u[ńcusJuM0 PzllPuV oląs qcńnopotłcolups
Ęp.edffid 'o8e,,vroseuzlq nuolqoJd op eludó]s€N.6Jo.ulp I^Ic-dsruJ ór8o1opo1eur|ectfnso]s 'tttug pep1'(ZJd1(uII^\s]SpeZJd -ds r:c . /v1/v1/v\ eu uu?o{u rr8o1opo]euo Ib€IuJoJuI |ecórłroznq WC-dsItIJ ?voIeUZ .nlepou el^\ełspod€u eruezoJp./Y\ b|nzqeal o]sóZc lcuełł eISeuZIq1v[ .p .e|evp ulruul .ł\q3.{u€p lfcero1ds1e nsocoJd o3e13e1oułr9J€|c€]uerueldtul :uluezoJp,{\o8euozołz rezpmq p€pI^ZJd .c .nuoduJ e|uezpbzrcds :?IueZoJp,ĄA o8elsord p€PIfZJd .q
Następnie :uzylt zastrzezonegooprogramowania do eksploracji danych, które było używane przezDaimlerChrysler we wcześniejszychprojektach. Tutaj napotkali pospolite przeszkody - wymagania formatu danych różniły się pomiędzy algorytmami. Skutkiem była dalsza drobiazgowa obróbka danych, aby przekształcić atrybuty w formę przydatną dla algorytmów modelu. Badaczę wspomnieli, ze etap przygotowania danych zajął.imdużo więcej czasu,niz planowali.
4. Modelowanie Ponieważ w sumie problemem biznesowym z etaplJ 1 było zbadanie za|eznościpomiędzy skargami gwa' rancyjnymi, badaczę postanowili zastosować następującetechniki: 1) sieci bayesowskie i 2) reguły asocjacyjne. Sieci Bayesowskie modelują niewiadome przez wytaźne przedstawianie warunkowych za(eznośct pomiędzy różnymi składnikami, dostarczając zatem graficznąwizualizację za|eznościpomiędzy składnikami. Jako takie, sieci bayesowskie reprezenĘą naturalny wybór dla modelowania za|ęztlościpomiędzy reklamacjami. odlcywanie regułasocjacyjnych jest omówione w rozdziale l0' Reguły decyzyjne są również naturalnym sposobem badania zaleznościpomiędzy rekIamacjami, ponieważ miara pewnościreprezenĘe rodzaj prawdopodobieństwa warunkowego, podobnego do sieci bayesowskich. Szczegóły wyników są poufne, ale możemy przedstawić ogólne wnioski o typie zalezrbści odkrytych ptzezmode|e. Jednym ze spostrzeżeńodkrytych przezbadaczy by|o to, żekonkretna kombinacja specyfikacji konstrukcyjnej podwajałaprawdopodobieństwo napotkania problemów z samochodowymi przewodami elektrycznymi. Inżynierowie DaimerChrysler zaczę|ibadać, jak ta kombinacja może wpływać na zwiększenie problemów z przewodami. Badaczebadali, czy pewnę warsztaty nie mają więcej skarg gwarancyjnych określonegorodzaju ntz inne warsztaty. Ich wynikowe reguły asocjacyjne pokazały, ze rzeczywtście,poziom pewnościdla reguły ,,Jeze|i warsztat X, to problem z przewodam1'', rózntł' się znacząco w za|ęznościod warsztatu. Stwierdzili, ze dalsze badania są uzasadnione' aby odkryć przyczyny tych różnic.
5. Ewaluacja Badacze byli rozczarowani, że wpływ sekwencyjnych reguł asocjacyjnych był stosunkowo maty' zatem w ich opinii wykluczający uogólnienie wyników W sumie stwierdzili: ,,Faktycznie nie odkryliśmy żadnych reguł,które naszym ekspertom mogłyby się wydać interesujące.przynajmniej na pierwszy rnlt oka.,'Zgodnie z tym kryterium, modele okazały się nieefektywne i nie spełniły wymagań postawionych podczas etapu zrozlmtenia problemów biznesowych. Badacze ttlmaczą to strukturą bazy danych otrzymarrą w ,,spadku'', w której z historycznych lub technicznych powodów częścisamochodowe byty sklasyfikowane przez warsztaty i fabryki, a która nie była pĄektowana do eksploracji danych. Badacze sugerują dostosowanie i przepĄektowaniebazy danych, aby stałasię bardziej otwarta na odkrywanie wiedzy'
6.Wdrożenie Badacze zidentyfikowali powyższy projekt jako projekt pilotażowy i dlatego ne zamierzalt wdrużać zadnych dużych modeli z tej pierwszej iteracji. Po tym projekcie pilotażowym' jednak' zastosowali wyciągnięte z niego wnioski w celu zintegrowania ich metod z istniejącym środowiskiemtechnologii informacyjnej do pierwotnego celu obniżania kosztów skatg, zamierzająrozwinąć weDaimlerChrysler. Aby daLejdąźzyĆ wngtrzną sieć komputerową, zapewniającąmożliwośćeksploracji QUIZ wszystkim pracownikom spółki.
Jakie wnioski możemy wyciągnąć.z tego studium przypadku? Po pierwsze, mozna odgnieśćogólne wrazenie, że odkrywanie ukrytej cennej wiedzy z baz danych jest trudną drogą. Na niemalżekażdym etapie badaczę napotkali nieprzewidziane przeszkody i trudności.Może nam to uświadomió,ze pierwsze Zastosowanieeksploracji danych w firmie wymaga proszenia ludzi o Zrobienie czegośnowego i innego, co nie ZawSZejest
.d11 qc'tuep ru.ĄAounq eruezvroto8'Łrd .łrgą'!1euz .qcńłro>ptzcod ,2;ołs1utzcazy _ łr9zsoą po śza1ez n]oJAZ łIu7DIsł[ .o1q'{zs .E 99op óls ecellliiz qcńuep elcero1dsąg l|]Ą;o .DIaI.Ą\ołZc-D1Ą1eue zezld euezpłrurds9,{qtzsnru r|cen1ervre ńrnpecord euur r rc9o>1e| Blołuoł e13b13.€Iualu1enplen o8e[ u8eu,{.ĄAolsózc qc.,{uepqc,ilrou eruazpełrordłr.'tu .arde1e .ozoJp.Ąt zn| r1ezel ur.{pza1 eu rc9oułrń11e 1ełre51 1e1soz lepou |e11zpn1|auzceuz _ z8elrr'(,Kqc'(uup lfcero1ds1esecord .[ez,{łrod'(ursqetzprłrĄq .?,o1s1^ĄKzcazy .ruozp€u o8eqzpn1 ścbte8eul -'{,ueruqnl ołetu'{ct|e8eul'tĄĄtu1elzpoures 1se[qcńuep r|cero1ds4esecoJd .Zll]/t|o .e,Iuełelzp nuu1do?ezc,ĄAep€qqn1o8e,tossuzrq .o3eu1o3o qcduep op nsecord rlcero1ds1e eruułrń't.r .tuesecold |ezc -osedop poleu z tupel1se| tr41C-dSHJ .fez'{łrod 9izceqoz ful918oul 4ef -er ]se[ qc'tuep elcuro1ds1g .ńure1qorde|o.q bztmrzol aIuZc|UvqJeIuI nruuąezcod uu er9D1.qc'(uep llcero1do1eop vpÓzmu ącśuzcśptuo]n€utu eIN .2;o1slłtKzcazy.łrgue1qordqc'(zseu eulezbltytzolop .{cluqruąS.i!\eue^\ -v,Zenep 9z1s'(z.lo>1ń.u b|e1unzoder9l1 .qc'(uep rlcero1ds1aop elzplzrcu t5 .l tl11;o . [ez'{.t.ro d ńur9 Ąs o z luIIZEI 11esrdo r.:ureluezaz .cu1.sure1s'(5 I1JItlZ 3^ĄQ.[8I] qc'(uup r|cero1ds1eo eruuuołezrd aupótrq śn1zc łBZ€ ł s1Y\ .fcr1o4uollulu snp1n€N sezerd .erno1 en} ue1 .snsueJ pue .suoI]BIeHl€]ualuuJa'ł.o3re1u1 -rogu1t8o1ouqJeJ uo ae]1luuocqns So^I]B]ueserdeg esnoH '5.n pezrd cŁ[ndó1sń16 Jo
qc,tuep o fuW.9.t ]:::;l: ;!celo;ds1o .p1tuńłl .np1ef eł\opoqcop o>1os'tłr I euuec 9lunedez ópłrerdeuezoru qc'(uep elcero1ds1e -ord e1eceu193ot qc'(uep eruu8eur.{,t.olepou euełr'ts^,Łro1'Qu t|elurnzol Kzl91>1,vpn1 zezld etunterdodel'tzn a1y .qcf.troseuzlq .Ą\9lue1qord eruełlKzblnzol eu urneceued]se[ eu qc'{uepe|cero1dsąg.elołz eluewr1nzsod nąpedńzrd łl 1e[ eluqopod .,fupelmfeuuec wc(qopz nlec ł\ qcńuup rlcuro1ds1esezcpod 'trg1lu,(llrqc'(ułr'(1Łodwuean,{zĄo rfcuer .1esotuzn -urrt8 eur elu eZ gbu?blcśzr' ńruezour n1ped'tzrd runlpĘS o3a1z .ncgoł ł\ ,bnzvnd bu.to1zso1órs eza1o eluqopodopłrurder9łą .rl3e1u4sBTueZJo^\lS op rzpełrordzervreruod,śzl1eue łeJq ?T.uezsro8 1so|uzquuuuupó1g .qcńuep ndfi o3e1zop eu€Aoso1sez erue1'tdełZEu 7permodpob1zup qc'tuup r|curo1ds1e op ellle,ł\orrrer8ordo ouIueIJ 'tr elc'(zn ruozp€u o8eqzpn1 o8eu.trerd.&zeg.ś,sezcelu o1 qc'(wp elcero1ds4g .ńure1qordennsńzs.tt euenśzblnzor Łs l elupo8'(zll 1e|.c3^\o'/Y\Jesqo .e[ cułrop1sulez .qcśuepl|cero1dsąeop Blu€.ĄĄoru?r8ordogo8erye| 99tlsn 9rdn1ez oą1ń1 Pu?ou elu.?nrcr!\oul3r3ordołrgcłrepezrdsńurep1ereJg]łelu b|ncerqooc .o8e]po aluzel -BZoIN .(7ptzpzolzceqoz) HqgJqo qcltauzceuz ezour.(r9tą.qcńuzp n]zIIuoJ 9e8eru'furr o?eu19?azczs tle8eur,ivr '(un'fio8le pep1śzldz5 .qc'(uup r|cero1ds1ensecord erdu1erufp -z.eĄeu,(ue8eulńłr '(ułr^,{suo1ur '(uu1 av,r\el1se|>1esolułl 1sa|rgzpeuIłelzpn HZpnI .qc'tuupl|cero1ds1e'tłr'(1u|crul ełrou 9ererdod obOOIertsnu..tg>1ru'ttte|n1ezco śussgpbzrczl1aza|,ze1o3e1e1q.euu.tt.our|'Łrdezrqop
o Mn 4.Pakiety oprogramowania do eksploracji danych są intuicyjne i łatwew użyciu.
_ Rzeczywistość.Znowu, łatwośćuzycta zmienia sig' Jednak analitycy danych muSZąłączyćznajomośćtematyki z umysłemanalitycznym i znajomościąogólnego modelu biznesowego lub badawczego. Do powyższejlisty' dodamyjeszcze dwa częStemity: o Mr s. Eksploracja danych zidentyfikuje przyczyny naszych problemów biznesowych lub badawczych. _ Rze czyw istość. Proces odkrywani a w iedzy pomoze odkryć wzolce zachow ania, Znowl, od człowieka zalezy identyfikacjaprzyczyn' o Mn o.Eksploracja danych automatycznie wyczyściniechlujną bazę danych. - R7eczywisrość. No cóz, nie automatycznie. We wczesnym etapie procesu eksploracji przygotowanie czgsto dotyczy danych, które nie byty sprawdzane lub używane przezlata. Dlatego otganizacje zaczynĄące nową operacjęeksploracji danych czgsto na. potkają problemy z danymi, które istniejące od |at, sązatem starei potrzebująznacznego uaktualnienia. Powyższe omówienie mozna zatytulowaĆ:Cze7o eksploracja danych nie moż'elub nie powinna robić.Teraz zajmiemy sig omówieniem tego, co eksploracja danych moze robić.
danych? eksp|oracia może Wykonywac 1.6.Jakiezadania W..... A teraz zbadamy główne zadania, do których zwykle stosuje się eksplorację danych. Następującalista zawiera najczęstsze zadania eksploracji danych: o Opis. o Szacowanie (estymacja). o Przewidywanie (predykcja). o Klasyfikacja. o Grupowanie. o odkrywanie reguł.
1.6.1. 0pis Czasem badacze i analitycy próbują po prostu zna\ęźćmetody, by opisać wzorce i tren. dy znajdujące się w danych. Na przykład ankieter może odkryć dowód na to, ze jest mniej prawdopodobne, ze ci,którzy zostali zwolnieni Z pracy, poprą obecnego ptezydenta w wyborach prezydenckich. opisywanie wzorców i trendów częStosugerujemożliwe wyjaśnieniatakich wzorców i trendów. Na przykład ci,którzy zostali zwolnieni, są teraz gorzej sytuowani finansowo, nizzanimobecny prezydent zostałwybrany, i dlatego woleliby innego kandydata. Modele eksploracji danych powinny być tak przejrzyste,jak jest to tylko możliwe. To znaczy, wyniki eksploracji danych powinny opisywać jasne wzorce, które moznaintuicyjne zinterpretowaći wyjaśnić.Niektóre metody eksploracji danych nadająsię lepiej
t|ser8errmq Pu bzel r|ser8erurue,ĄAocezsg.7.1 .s'(g qcp1cefcuecq ,Ądolpnls B1uopĘsueJo PIupeJ9 @ rt
.
at
.ł;... . a
tJ-. ... Ł:.'ł tilł.'..F'. ..E..? ..rYtrr.jl ł.E.
'ł/
7@
o
-. . o
€ E m
I*i!#i.i,::
o
: . .-Łd;iŁi!}*.ł.Ł:...
VJ
.qc1ącelcuac1ł\9lpnls eZ lueco|eruperg o8e| er.tłe1spoduu qco1sre1sr8eul^Ąglpn]SezceqJnłs ueco ferupeJ' elu€^\oc€zs . \ącezcaul qcńct|npfcep ^Ą.Ą\9{Iupo1Y\3Z lłc91ńpzezrd Ąńq lse| ńper1 .8urłrg łcIłBd fu8 sezcpod elzpóqopz ergry lvrgqund '(qzc11eIIIB^\ocBZs . ien8ue1 il€qlood IuuolleN ł\ eueloł nzetnz lect|uąru'furAgłIupo^\ezl|ce]or nąpeds o8ełro1uecoldeluu'tlocuzs o lruersel [e1Ąoązs op 1gJllr -od epf.t uurzpoJ uu uł\oqosoola1zc euerqńm o1ńosol '{zpólueld e1l .eluemocezs o :b|ułetnwzqceru?p?q I elseuzlq ^\BIu -€.ł\ocezs yepez śpep1'tzr4.,tl94ped'{zrdqc'it.rou op lopou 'tueur',Ł4o cB1Y\oSoJs€Z'tpe1łr '(urezo11.l|ceul'(tseIepou uruu '(zcre1sopru.(c?zcn ezlo|qz rn rruńct|nsrdoru'(uuerruz e etue|cedIł\DIlueruelugrcrufłrozcrn1s ńzpóruod>1ezbln7 'IA\DIeł\ npos ruuolzodzelo e]uelced t8ełl .rc1d.n1er.trpo lJsouzelez n,n1uydzs 'rr e]uelced I.ĄADI elualu'rc o8eryrozc -JDIS luelu€1Y\o3€Zso lueł\oseJe]uryz9(qpep1śzld'uu ,(ruezop1.qcfcb|nsrdo qc,{uuerurz qcelc9ouu.Ąeu órs c?|ererdo.n1ec|euuerurz99oueł\órs elncezs .r|cełr.resqo qc.&rroue1p .l|ceur'Qseqc,(uuerurz .erudó1se111 .n1ec|euuerurzolutlrglvzIJ'ouBł\ qcścb,|enlntez l >1e[ ...,ĄĄopJo4eJ qc.{utred.. bcoulodez euełropnq ts elepolĄ .'tłrorcgo1e|aruv,śuzc(launu lsef ńr9lą .n1ec |euuenuz rueDIEJB{4c urernt[.{,t z r|ceąg'(se1qop euqopod 1se|errrełlocuz5
.z.9. (e!ceuń1sa) o;uemocezs t .tolvzpzor rn 'turrrrrouroqcńuep Ózl1uuetu|'bero1ds1g .^lgpueJłI,i!l9cJoZ./Y\ ?IuBł\ -r1nzsńzrr.qc'(uep l|cero1do1eópo1eu buzcgel? ,(stsĘnun npp Kloplo1dxa .?ue) qłfiu .ep Ó41uuubu$cu.ro1ds4azazld 31óIu3Łlsootsózc cśqazoannsrdo 99o>1u|u1os'(16 .nlapou lc9ouozołzI lc9oł\oluqerunporvrodZ ^\9łI€I e1peuselelu o^\ołunso]sts e.touor -neu lcels '{uorls fe18rup7 ',tgryu'(lYrqcrolv\seruerugel't.ntuorzpnl eazel(ztd r oul'(crnlur b,|erunadezau|Kzścepewezlp pup'tzrd u5 .lfce1erdre1ur|eułrorup1r |euse|op ouur ZIu
Rozważmy rysunek I.f,naktórym jest pokazany wykres rozrzlta średnichocenze studiów magisterskich w stosunku do średnichocenzę studiów licencjackich dla 1000 studentów.Prosta regresja liniowa pozwa|ana zna|ezienielinii, która najlepiej przyb|tza zvliązek tych dwóch zmiennych zgodnie z kryterium najmniejszych kwadratów. Prosta regresji wskazana na rysunku I.2moze zostaćużytado szacowania średniejocen studen. ta ze studiów magisterskich na podstawie jego średniejze studiów licencjackich. Tutaj, równanie prostej regresji (wyliczone pzez StatystycznypakjetMinitab, z którego pochodzi ten wykres) jest następujące j : I ,f4 + 0,67x . To mówi nam, ie szacowana średnia studentana studiach magisterskich y jest równa I,f4 dodaó 0,67 razy jego średnia ocen Ze studiów licencjackich. Na przyk|ad, jeze|i twoja średniaocen na studiach licencjackich jest równa 3,0, to szacunkowa średniaocen ze studiów magisterskich wynosi: } : I,f + 0,67(3) : 3,25. Zaawazmy, żepunkt ('ł : 3,0 i : 3,f5) leży dokładnie na prostej regresji, tak jak wszystkie przewidywania w metodzie regresji liniowej. Dziedzina ana\lzy statystycznej dostarcza kilku poważnych i szeroko używanych metod szacowania. Zawterająone Szacowaniewartościpunktu tprzedziahl ufności,pro. stą regresjg liniową i korelację oraz regresję wielokrotną' Te metody omówimy w rozdztaIe4. Sieci neuronowe (rozdział7) równiez mogązostać użytedo szacowania.
(predykcia) Przewidywanie 1.6.3. Przewidywanie jest podobne do klasyfikacji i szacowania, z wyjątkiem faktu' ze w przewidywaniu wynik dotyczy przyszłości'Przyktadyzada(lprzewidywania w biznesie i ba. daniach obejmują: o przewidywanieceny akcji po uptywie trzech'miesięcy(rysunek 1.3);
'a o
1 kwartał
2 kwartał
3 kwartat kwartat
4 kwartał
Rys. 1.3. Przewidywanie ceny akcji po upływie trzech miesięcy
o przewidywanie procentowegowzrostu |iczby ofiar śmiertelnychw przyszłym roku po zwiększeniu dozwolonej prędkości; o przewidywanie zwycięzcy tegorocznych mistrzostw świataw baseballu na podstawie porównania statystyk druzyn; o przewidywanie, czy dana cząsteczka w procesie odkrywania leków doprowadzi do wytworzenia nowego, rentownego leku dla firmy farmaceutycznej.
!'(qezrlod aulg?ezczs oBe| |ect|elupó18złrn .erdru8 |e1upe1łrodpo.ł\ uluapn1s o8ełrou eluezczsellun . ituełr1snzsolse| b'uol,(pex{Łu€ł u|cr1usue4euep Kzc .erue19e.r4o o :b|entnuz qoeTuepeqI olseuzlq łr lfce>1g'(selĄvepezśpe14śzlą .qJepoqcop qcqosńłr o '(dru8 op euesrd'Łrd )e$oz a?olu JoseJordrued up1el-€9 pep1,Łrd up '.ĄAgpJołeJ qc,&lrou op 'tsep ezstdizld ruf-lo81e o?acbzcn ruolqz ez r[cn1gńse1ąerrrru1spod e111.uuuuz 1se[ alu npoqcop etdru8 o e|cuuuo;u1qcń.lgtł ?Ip .ilrr€pJołer rurńzrrouórs e|nurfezur1'fuo81u elud$su5 'ur''(łbzcnlualolqz śuel.l'śzeu qc,(uepJ9IqZ uel .qcupoqcop qcp1osń.t o 1se| .npoqcop Łdru8 ?uep z euezbltyyz bdru? z euezblnz Ł8oru pepqfzrd erued ezsre1s 3N 9ńq bs qc.{uueurz elceurqruoł epp| ,,,ÓIs t|Z)n,,(erue.tłourur3ordo) urfiro81u qgsods uol ł\ .npoqJop odnB n1ec Łuuerurz (buełro>1g'(se1ąs .ec?|nsrdoeuue[uz oull\glez ?nD I łe| .ocŁfndfisuu |acórłr |eruui qc'bt|urerłruz qcśueplglqz epb1?ezrd.t.r,rerd[e51 1e8erqezld elzpÓq u1fuoB1y .qc'tuep rlcero1ds1e I po]eu op órs elepeu ezlqop ozpleq al łIuqcel .ąerłr .9e1d>Iu|qcqel .Ituuqosolru -p]ą .1|cu1g,(ffipl lualu€ p ez eruepaz oI .pg.ĄĄBZ 1se| -Ą z qckrczblnz qcec qc,(uurer.tnu1spod eu qc'(utp eveq M qc'(uestduzelu q9so npoqcop
: pgqcopPIsru ńu1oqorzeq W pgrlcopruperg n8ur1eryuur po 1m]1nsuoł W p9lłcopr5os'{.tn >1'!uuilo;ur t
9g 8Z LV
Ż"tą' {q:ńil.' :lrlrt.tt,.,...,:
900 200 r00 ,':ld1
npoqcop IlJ?{g^s?pI op qc^u?p nf,o|qzez {eulcĄ,Y\ .I.I BpqBJ
..{ru99ndńzld.I.I ńd;n:?ntuouo4{Kso1>1s 99o1Y\|IZou 9erur '(q1ercqcZcepeq ez {eqą .ĄĄ Ńrcze4od qc'(uup ruoIqZ 1ueur8ur;pv1>1,|zld eu śulqenzog .qc'tc?fnsrdo qn1 qcń.tłolc9 -|ełrqcńuuelulz lglqz ze:.UMgIąef .n1acleuuerurzo ófceru.ro;ulelaltltez Kp?eĄqcf,:9l>1z ś'lolqzeznp ezpwelds qc'(uupr|curo1ds1elepontr.pgqcop plsru .pgqcop rupeJg .ĄA9pJołeJ .pgtłcop ryos'0vr :euo3e1e4qn1 'tsu11śz4 uu euo1elzpod 9rJ]soz'{qe18oruo.uopep1ńzrd BI9lĄ,npoqcop ndnl3 łB! Bł3] .n1eceuuerurz u^\oIcSołB!tse| rtce1g'(sep1nruepez 11
.'.9.t BlcBł!ilsBD| 'Tn4ped(ztd rrrnlprusMnłelzpzollcgózc |ezs1upłreuesrdo1se|qc'tłrouoJneulcelsbcoulodezeluu.tł.'( -lnazld en]epez.(9 łrgpursbsqc'tzszqqleu-ł epoloru l (91evpzol) eu|'Łfcep ryvpzol) ewozrp ,(7 1vlzpzol) e,t.rouomeutcers >1u[err1e1.,fuperłreruełr.{.r4po l qc'{uep rlcero1d .bu1o'n1o1etłr -s1e ńpo1eru Zalnllr.gl1e|,p apppzoJ .Ą\ euolł\gruo ó|ser8a,zelo ó[ce1ero1r błroruq ó|ser8er Ęsord .Ic'ouJn ntrevpazld r nppnd IcgouB.ĄA ?Iu€1ńoJaZs ,(po1erueulńc -'(pe4 euo b|nu|eq6 .uruełrfprłrezrdop .Iul€{uruem rurrupetmodpopod .e1ńznzelull.gl 9'(qb8oruBluelrrocezsr l[cu1g,(se1ąop euułr'$s'(zroą'ivrPFuqJe] r ńpo1erua1ą1s,{zs11
. ocenę stopnia ry zyka przy znania kredytu hipotecznego; o diagnozęwystępowania danej choroby; o określenie,czy testamentzostał napisany przez zmarłego,CZy tez przez kogoś innego; . identyfikację zagroŻeń terrorystycznych na podstawie zachowania i finansów osób. {:;ffi;;;;łń;bóffi;
{lgrlr
'
Edycia t} oenerui
.łg"ilBs 3S.n0s 30.ass L
; ?s.rs* 3g.an* 1$.*ry* lg.ng*
*
***.*&
*qlw *
ł
*
&
,,&' tn
3n
&
&
e
L*k A lub t'
*
L*kAlubfi ..i L€ k Y
a
E0
4*
Lek
łź* '**
a
s0
7A
Wiek
; rnłuul,o Komerrtaze Rys. 1.4. Który lek powinien zostać przepisany dla którego typu pacjenta?
Na przykład w medycynte, zał6zmy,ze jesteśmyzainteresowani klasyfikacją typu przepisane pacjentowi na podstawie jego cech' takich lekarstwa, jane powlnnó "ostuć jak wiek oraz stosunek ilościsodu do potasu. Rysunek I.4 przedstawia wykres rozrzL|tu za|eznościstosunku i|ościsodu do potasu od wieku pacjenta dla próbki 200 pacjentów. Konkretny przepisany lekjest oznaczony kropką o różnym odcieniu szarości.Punktja. - lek A lub X, punkt ciemnoszary snoszary wskazuje na lek t punkt w kolorze szarym - lek B lub C. Ten wykres żostałwygenerowany przy uzyciu pakietu oprogramowania do eksploracji danych Clementine, wydanego przez SPSS' - na os1 Na wykresie stosunek Na/K jest zaznaczony na osi IZ (pionowej), a wiek X (poziomej).Za|ózmy, żedajemy nasze zalecenia na podstawie tego zbioru.
.e1crr3s.Jeuuł!\ :7g udrug o 'xry4luerureqog :0I edrug o 'setulsgpoolg onlg :I0 edrug o :'(dru3ectlndłseu '(ureru01106 npoł BIC .IIuJoJtIe) .u s1pg 't1 -Jeleg .0IZ06 npoł elp ruodru8 pep1śzłd uu órs '(ur|'Łl|śzl11b,|uzceuzo'{dru8e1o3 .npoą o3e1BIp edru8 euqcezs.tłod uuo11etłrg'{łr elu |etzpreq|uu IĄZIud -alsozr- '(.tro1zcodpo>1'{uep9esrd.t.r.[61] '(ulrg tłro1eulaluróuor]s eu 99|emńzcre1s'{16 .17'1 epqei erc'tz n1't1surepó18z't.tpod qc,(uozcoupa|7 qcBuB1S.tłuor?a.rur,{.to]zcod uepo{ ur,(uupĄólqo ńpqnąe|nsrdo&g1ą .WZI64 rlce1uaur8esure]sńs]se[ eruełrodru8 .Ą\gluzrueqceuqc'(uełr'tzn z anśupel.ńłropcod poą zazld o8euo19erąo.n|er1 łr łrgu -ol8er qc'(uzcger8oe8 z o?apze>1 n1gord o8euzcger8oulep eluel.Ą\e1spazrd órs e|npluuz 3n1snqc'(udfisop p9r916.urerue'/Y\odru3 órs e|nrufezelqeuolsegord [61] .cu1.se1rre13 .eu€^lozllelururur '{dru8ezods łrgpro>1oJ op o.[]sqerqopodu .eu -ułrozqeru'{s1eul]se|druazJ4bunan A9pJołeJ oA]Syelqopodetzpa.fdru8 qnl '(dru8pod .o3e1 eupo?z o^\ołunsolseu qc'tuup śtrec elnqgrd erue.łrodru8 u4ń;o3p rylqz 9rtelzpod alnqgrd eru $evnez.n1ec leuueruz Ic9oilP,ĄA9enfplnezld qn1 ,cu.tocuzs.9e.ł\ołg'(sup1 eruełrodru8e|I]epez.n1ec |euuerurzE|Jf ellueruełrodru8ru1pud'tzrdłl e? .ur'$ 1|ce4gńs -€H po óls ruzgr eruurvrodru9.dru8 qc'(uul Z /Y\opJołeJ op auqopoderur rue|uz^\Bu elqels op euqopod ts aJ-oDI..Ą\opJołeJ IueJoIqZ edrug .^\gDIeIqo qcfuqopod '{sep1łr łr9>1 1se[ -ped(zld qn1 tlce.u;esqo .łrgp.lo>1er erue'/Y\odru? ezceuzo (?uua1sn1c.Bue) etuełrodrug
'9'9'l eluPModile .p nąpedśzlduntpn1s łr furaza1od qc,{u[,{z.{cep .ł\oZJp ?courod uz ólceągńse1ąb.t.ropep1'{zld.(L1evpzol)eł\ouoJ -neu IceIS,(91vlzpzol) eu|frzścep ewazlp ,(g 1elzpzol) łrgpelsts qc'fusz1q|eu-7u4'{ro8p o1 r|cu4gńsup1'(po1eurerue1ndo4.r|ce>1gńsegeluepez ezsuu 9uuołń.t.r'(qe .elepou au .nserq,ilr o3ełrorerul{^\olel^\ -a1nzs,{łr ńurefn1sńzro1ńłr qc'{cŁ|e3 ze1 o3e1u1q |e1zpruq -uurf.t .qc,(uueruz qcśuzglnIaI'/Y\ €u óts rsnru e|ca1g'(sup1urasezc e1y .qc'{uep 9eretdo ln91zbllłz qc'{łrorerul{m|9łI -n^\peIueIrunZoIZop eucotuod bs '{serr1'tt.r 1 '$erg .BcJesqceqoJoqc qnl elruls€ śzld auzze>1słrłrrcezrd .uraue8orlseś[ueJełolq-€1eqz e|cąerelul euzgl 9'(q Ł8oul qnl IuIDIeIrul{uur ?oIIfI t8our el rr1e1pep1ńzrdu51.ełrqzour]se|eru e|cu4gńsep1?uzcelelso .r|ceruro;ur|ezs .|etupep1opZoB .(X qnl V łeD dĘund elezs zelo (c qnt g łeD 'fi>1und eJezsouluelc zazld auozcvuzo ,elll6l,elez euzgl tlu1sop nse'r1ńłrngózc fe^rerd|eu1opz nua|ce1 o insulod op npos lrtoil rul .Z -unso]sŁrcgoge.t btrnan z rłro1ue|cudnIueZsJBJsńuesrdezrd 1e$oz uelur.tł.od ąe1.{rgtx 1 1e11se! Kuucalezetuelced o8eqet u1q .('{qund eruzsouseĄa ąe1.{uełr,(srdozrd )/"N luazerolIulśznp z 11er.ur rcuefczd vpoł'ul rupezrdod eZ eZcEIJZooc .nser1,{łrn9ózc |aul93 łr 1sefnsu1odop npos Ic9oIIn)lunsols 99o]rułrEznp ę,.nse'r1'ilreluołs |ełre1od ts rcuelced IZpołIĄ o lnselod op npos lcgoll Dlunsols ?rcgo1re.ub,znpz rmo1uelcednruepołru'(uestdezrd9e$oz uerurrvrod >1e1 'trgt) .I
Tabela 1.2. 62 grupy ttzyte ptzez system segmentacji PRIZM 01 Blue Blood Estates 05 Kids & Cul-de-Sacs 09 American Dręams 13 Gray Power 17 Greenbelt Familięs 21 Suburban Sprawl 25 Mobility Blues 29 Old Yankee Rows 33 Boomtown Singles 37 New Homesteaders 41 Big SĘ Families 45 Single City Blues 49 Hometown Retired 53 Rural Industry 57 Grain Belt 61 Scrub Pine Flats
02 Winner's Circle 06 Urban Gold Coast 10 Bohemian Mix 14 CounĘ Squires 18 Young Influentials 22 Blue-Chip Blues 26 Gray Collars 30 Mid-City Mix 34 Starter Families 38 Middlę America 42 New Eco-topia 46 Hispanic Mix 50 Family Scramble 54 Norma Rae-Ville 58 Blue Highways 62Hard Scrabble
03 ExecutiveSuites 07 Money & Brains 11 SecondCity Elite 15God's CounĘ 19 New Empty Nests 23 Upstarts& Seniors f'l UrbatAchievers 31 Latino America 35 SunsetCity Bules 39 Red, White & Blues 43 River City, USA 47 InnerCities 51 SouthsideCity 55 Mines & Mills 59 Rustic Elders
04 Pools & Patios 08 YoungLiterati 12UpwardBound 16Big Fish, SmallPond 20 Boomers& Babies 24 New Beginnings 28 Big City Blend 32 MiddleburgManagers 36 Towns& Gowns 40 Military Quarters 44 Shotguns& Pickups 48 SmalltownDowntown 52 GoldenPonds 56 Agri-Business 60 Back CounĘ Folks
źkódło:Clantas, Inc'
o Grupa 07: Money and Brains, o Grupa 08: Young Literati. opis grupy 01 Blue Blood Estatesjest następujący.',,TJznanidyrektorzy, profesjonaliściiipadkobiercy Starych fortun, którzy zyjąna najbogatszych amerykańskich przedmieściaih. Sąprzyzwyczajeni do przywilejów izyciaw luksusie - co dziesiąty cz|onek jestlwazany Za SpadekZe szczyĘ grupy jest multimilionerem. Następny poziom zycia tu". Przykłady zadań grlpowania w biznesie i badaniach obejmują: . Ńamierzenie grupy potencjalnych klientów pewnego produktu z niszy rynkowej wyprodukowanego przez małąfirmę zmałym budżetemreklamowym. o Podział.Zachowańfinansowych na korzystne i niepewne w celu kontroli obliczeń. o Redukcję wymiaróW gdy zbiór danych ma Setki aĘbutów. o Grupowanie ekspresji genów, gdziebardzo dużogenów mozewykazywać podobne zachowanie. Grupowanie jest często wykonywane jako krok wstępny do procesu eksploracji dajak nych, zwynikowymi grupami vyĘmijako dane wejściowedo innej techniki, takiej sieci neuronowe. omówimy grupowanie hierarchiczne i metody t-średnichw rozdzialc 8 i sieci Kohonena w rozdziale 9 . PrzyŁJad grupowania jest pokazany w studium przypadku 5.
reguł Odkrywanie 1.6.6. Zadanie odkrywania reguł(ang. association rules) w eksploracji danych polega na SZukaniu, które atrybuty ,,sąpowiazane Ze Sobą''.odkrywanie regułjest najczęściejSpotykane w świeciebiznesu, gdzie jest Znanepod nazwąana|izapodobieństw(ang. ffinity
-|eufzrd euemepezrds'!dq ergq.et o11.Ęprqdm re3u5 .ryrrn.re.te1 ,(1eru1ads ergry .r[c4eqc,{,toąruśn9y67 '?łEIII .009 ] ncll.l.Jezc.tr (e|cezrplrduł eznp T BIupeJ' olupel,todpo) L66I qnl op oos drys 00' drys dTs op .(uorssruruo3 e3ueqcxg ś1evepuI nseDlo o3e1ecu1pe]ł? euJnod ,.{1urru nruupeg .t e1,(zn etc4e er51s,(zs16 puB seĘunces z acbzpol4cod) L66I eJMJaZc op t66I uruzcĄs po nseDlo z.qcewra EvE o euep łBJqezJeJBs
qc^uPp otue!unzotz'z .r[c>1esue4qc.,{u;nod elueuzod o3eup3e1 DIT.uf1ń.tłqcf1e1sr'rod elzp1al1 eu rrr91s.(z qc,(p1'(trzeru erue,tf.q,(,tr lcgo^\{zoru ?ruez$IóI,t\z n1ec łr qcfuep rtcero1ds1e rr8o1opo1eruruerc -'{zn ,{ueztosereluruz1se[rege5 .uruem'(pr.tłezldemosezc,(trrerr drurg mIIJJzoI{€ | {łcH€ l .qce]nq,{.4u uu órs .n1sdz ctletdn1s ezczsv|l^z .e|ceturo;ureu;nod erup8e1 cttn1s,Łro>1,{,tn euozs1órrnz 9erur t8our euuo.qsod ,(gosg .n1s'(zepl.{^\zeruś1n3al zb,zsouiud.e|ceurro;ur eu;nod Łtn1s,(zro>1drn s.r.op1.,(qoso zezrd euu,rrfu -o1op erzpler8 eu efclesuerl ez 'elnruroJur qcueg 3uo1 - ,(11sre,r.run el?trs pruroJrlBJ z JeJ?s .ni u?lv
.l qcltnosouzIq o!uo!unzoJz uBfńołunrPiln
qcńmouotnou pumgłsńz lcolsbcouodpz olzpłol0 qc/tfi,{flEo|u olue'nńplmozJd
.I^Io-dSIuJ ll8olopoloul elcPle]uoł łr qc'(uup r|cero1ds4eaIUepeZeu]eĄuoł ?I.Ą\B]spezJd epzBĄ|łcśIg]ł Z .DIp€dfZJd rulelpnls elneJrJlzc órs ,(uerurfuz eIudąSBN . .t, DIp?d^ZJd lunlpĘs zrr qc'{u|ńcefcosu € I ueł\oso]Sez pegśzld',tufe1o1 ,{rurłr łn8eJ -9luo .I m1pedńzrdunlpn]S ^\e]fzn '(1'tqeu|'{cetcosu,!n8eg .ruc ult^Jo81u lłolld y l uIłfio8IB .qcńu|'(cu|cos?łn8eJ€IueZJo./l\JńtufroB1u e.ĄĄp'(IuIł\guIo0I elezpzol 1* 'AUZJOqn ]łoJafuzcaldzeqatuuło.tr'(^\ DIleSpo oruel'eDlo o łeI '{A\ouqc'ftgDl m lvrg>1pedńZJd 'urezeJeuurnodrults eru ńp8ru er9q .{łc't]I ,UJezerew^lodruItS eJ91ł.arceąreurrednsł\ ńZcaZJ ellazelauz . .|euzcruo;e1eJ lcals .ł\rc9o4e[órs uruezsro8od eruezrrńprłrezr4 o .b|ulśzco?np olues oJ9DI .IłJńłKqz:i.1op .ecEpoJ b|elśzcru.{r9p1,1calzp iqzct1ruIunso]s aruepeqz . .3n1snnpJupu€ls eruarsetupod Ą:e;o eu 1erzperłrodpoeru.tr,t1 -śzod Kzl914 '(uug |eu.t.red|e.troąrgruołiluoJeleł ł\g]ueuoqe u>I]espoelnepeqz . :Ł|nurfeqoqc€luepuq I elseuzlq łr p8er eruełrd-qpoyepez śpey4śzl1 'obg7: ob1z: W trcgou;nI _ W ruercredsłreZ *oMId e|ndq o1 .fqcn1eld elndn4 lle?ar. :uc?lnd3lsuu'tqe1ńquut'(ce|cói"u etrn8erUBBZ.ołud opdru1gg.fqcn1eldqrdru1.{zrgq,OO7,LIcl!z e ,{qcn1eldo1rdq 697 .z{coułt Z az,9ś'łĄpoezour łeue^\Zcłr '(dn4ez qcfJ?TqoJ 1ńgtueIDI 1e>1rerruedns 000I śueppep1t|zlde5 .dp8er lc'ouJn qnl lJ'oup€plop r ulcredsłl blerul z IIIeZel ,,>1tud)6au o1,41upaf.ldodl1aT'af,9u1sodb|erclqśzldeu|'(ce|cosuĄn3e6 .rue1nqfup |ocót.uqnl euI -ołrp ńzpórurod tlceler eIuoI'aDIo o8ełrorc9op p8er op qc,t1,(;4poeru €)lnzs 1n3ererue.t -frłpo o,tIIBpvZ,(sts(1oua płsDq płJDuł.8ue) o8e.tode;4su1,(zso>1 e,Z|Ieueqn1@rcQnuo
mniej dwa razy w ciągu roku, aby zapewnić,dostatecznąliczbę danych o transakcjach do analizy eksploracji danych' To skutkowało343 walorami użytymi do badań.Zmienneoryginalnych danych zawierały firmę, nazwę i rangę osoby dobrze poinformowanej' datę tfansakcji, cenę akcji, liczbę akcji, typ transakcji (kupno lub sprzedaż),liczbę akcji po transakcji. Aby oceniać wzorce wcześniejszychtransakcji osoby dobrze poinfor. mowanej, badanie sprawdzałotransakcje sprzed 9 i 18 tygodni. Czas, w którym poszukiwano niezwykłych zysków, zostałustalony na3,6,9 i 12 miesięcy'
danych 3. Przygotowanie Safer zdecydow a|, ze nie bgdzie wykorzystywał informacji o randze osoby dobrze poinformowanej. ponieważ inne badania pokazaty, ze mająone róznąwartośćw przewidywaniu niezwykłych zysków na gietdzie, Podobnie, zostałypominięte osoby, które nie biorą udziału w podejmowaniu decyzji. (Zauwazmy, zę attor książki niekontecznie zgadza się z opuszczaniem pewnych zmiennych przed etapem modelowania z powodu wcześniejszych wyników. Jeżeli zmienne nie mają wpływu na wyniki, model prawdopodobnie to wykaze. Ale jeżeli istnieje szansa wykrycia czegościekawego' model powinien mieć szansę sprawdzenia tego. Jednak w tej dziedzinie Saferjest ekspertem).
4. Modelowanie Dane zostały podzielone na zbi6r uczący (80vo danych) i zbiór tesĘący (20vo). Zastosowano model sieci neuronowej i otrzymano następującewyniki: a. Pewne grupy przęmysłowemiały najwięcej niezwykłych zysków: . grupa przemysłowa 36 sprzęt elektroniczny, l!ącznie ze sprzętem komputerowym, . grupa przemysłowa 28: produkty chemiczne, . grupa pfzemysłowa 37: sprzęt transportowy, . grupa przemysłowa73: usługi biznesowe. b. Przewidywania, które sięgałydalej w przysz|ość(od 9 do 12 miesięcy), zwiększyły zdolnośćwykrywania niezwykłych zysków w porównaniu z przewidywaniami, które miały krótsze ramy czasowe (od 3 do 6 miesięcy). c. Łatwiej jest wykryć niezwykłe zyski z transakcji dla małych firm niż dla dużych firm.
5. Ewaluacia Safer równocześniezastosowałmodel multivariate adrłptiveregression spllne (MARS, nieomawiany tutaj) do tego samego zbioru danych. Model MARS doprowadził do tych samych wniosków, co model sieci neuronowej, łączniez wnioskami a i b z etapu modelowania. Takazbleiznośćwyników jest potęznąi elegancką metodą oceny jakości i efektywnościmodelu, analogiczną do otrzymania dwóch niezależnych' zgodnych opinii o decyzji. osoby zajmujące się eksploracją danych powinny dązyć do uzyskania takiej zgodnościwyników jeżeli jest to tylko możliwe. Jest to możliwe, ponieważ często więcej niż jedna metoda moze zostać właściwiezastosowana do rozpaĘwanego problemu' Jężeli oba modele dĄą zbiezne wyniki, to wzmacnia naszą pewnośćco do wniosków Jeżeli modele się nle zgadza1ą,prawdopodobnie należy badaó dalej' Czasami, jeden z modeli nadaje się po prostu lepiej do wyciągania pewnego typu wyników, a|e czasami, rozbieznośćwskazuje na gtębszy problem, wymagający powrotu do wcześniejszychetapów.
6.Wdtożenie Publikacja wniosków Safera w Intelligent Data Analysis [20] stanowi jedną z metod wdrożenia modeluTeraz analitycy z cahegoświatamogą korzystaó z jego metody' by śledzićniezwykłe zyski' i w ten sposób pomagają chronić małych inwestorów.
-----
-
-
.eucol^o fq,Ę'.{q etu n1ped,{zrd ru,(1 ,łrr qcńuep rlcero1ds1err1ru,{,tr ,ugged$Ie EIueZJpsI^\gopr ,(zperłr zeg 'qc,{uep r|ce.ro1do1e nsecord sezc ś1ec zazld csounś14€ blzpnl t11er.tr eu Ł8errrn dru99rrrrz ,o}e6ou .euolupus€zn eluqopodoprrrerd -śzcńzld n4zblnz o8eup€Z ?s eruepuq ezslep ze:rlolĄJ 9btśzld Buzoul eru I .euqopodopłrerd |etzpruq|eu 1se|y eze1odrgez lrzpret.tn1seIuIBIIuoJeIu.ł\guedsłet lzcepeq1gdsa7 .y1n qc.{ut'{courord ,trgpue1eur op ndó1sop o8eruper,trodpotfeur etu ,(cfzcureu1er,11 :q tlza1odlg C 'urńulu1 rue,turd z umzbtntz lerzpruq ts ruvŁzczÓu e t1erqo1 zru coruod o tzsord |etu1óqcruvśzczlul,{csrueu1er,uazow 9ś'g'euvonilz ect|ru1urq1se|n1 :3 oza1odtg o .'(dru8 euur zru 'u1sdólsezrd fecór,trr rputredodcourod o órs .{cŁiu8erqn,{cfzcrrreu1eqy1 :g ozapd111 o .eqr,tr,{c,(zc euurzpor .ełrerd,tr9df1qc,{uurn1ped,{zld nr etu e 4e! rłcHet .ur'(ure1armerd ,(zrd o>11.Ę ercreds'tl o r1sord courod o óls '(ct|e8erqn ,{c,{zcrueu1eq11 :y aza1odtp o :'{ze1odlqectlndó1seu IIuzeMzoJrcreds>1a t ezJepeq bu|,{cefcoseb1n?alhzszinod ez órs ru'{ct|,(r4 uleuśzcśzldpeu rtsn>1sfps€ zcpod ''{ze1odrqemu1 .ectfnserąur ,cb|epuyez.eluepeq rp.tonu,{1uo1 -ełJ bzlolłl r1ezef ts eu|,(ce|cose dp8er az ezcepe1 'ob06elc\ouInz auJnl oilO)d = DMDrd .u,IDwa!^Ą _ DruazpoJnacs[atw l1aza1 :5e| qciu|,(ce|cose qc,{,lrru1en [llzpol o1 z bupe1.qcdut'{cetcosu 1n3er p8er uruułr,(o1poIuezsnueuecs ruf.uod,{11se|oc .1n3erqc,{.tte1ercerue1eu.rr qc,{u|fcefcose 1n3erqc,(cŁ|ns -eJelul eIeIł\oll{qpo .ryudó1seuuepel r .euozcruerfio .{plsoz ,Ęnfiea 1rupezrdod uepe| o41f1 f1erul fq 1u1
't oluernolopol l .eugopod ...31 ,ś1elzpezld urf1 r fezruod.. eu1e.o1sdp eu euo1erzpod ..69 [ezd't.rod.. łe| elryl ,y16 .qcśuepbzeq € ł Blsoz euuevJJz.qcfuep qc'(uezperrrord,łrr uzpmerds '(rgq zezld u,(ptzn łaI^\ 99o4e[ .n1nq'{4eII[BIJsoue,ł\ etuezpbzmz ueruelsńs euu,łroportodsrc9ózc od o1 rru,{ue.uopo>1ez 1se1 eI^\Ic'?ł^\eIu qn1 nu'(ctfn1eJq z ^AgpJołeJoł€ t u ozpJ€ q t|cb,tentnez.,(1sdzco'tto1unso1sórs Fz?)lo VTA l4cknp rylq7 qc/{uPpolue'n0to6ńzJd.E .(etzpts ,t\ o^Ęcluuel,Ąe€ 1 s'du) ,&lrerdsd't .(euolelzp'Łrderu gn1euo1erzp.{zrdcourod 'h) etzścep.(eqr,l.rfcołrurd .du) e.terd fezpor .dcoruodetue1erzpnd,tlorupopg,tod .pgł\€ z .łeI.ĄĄ .2e1d:qc,(uepruolqz op etuazcb1n qcduueturz op qc,{zsferuzełrfuuruepels lprqf,t rcreds1e 13 .łrgueds>1e op coruod o óts IIIcg:,Mzezcvpeq qcfuuerruz ,(qzcq eruezsleruruz nIeJ lA .qc,{uuerruz 969 peuod o efceruro;ut l4cścbterclnez,666I_L66I z rnrq qc'{upuor&al ]EI YTA 11 z tu.Ąerd coruod o yepod 00o08g peuod ouvlqa7.IIIułsnV ^\eruzce1odsur'(ue,tłoso1s'{zrderu urotzpn1feu,turd,{courod fezsfaruzce1n1sBIueIu -łreduzop śzbpery1n,6tcezlrcBłobnopbzl19d.(vr| pry p3e1 euolcl1 zezrd euorudó1sopn,(1e1sozeueq
qcńupp o!uoIlunzolz,z .qc'(.tłop?s qcduup qcńudó1sop erue1s,{zro1.{rrr ezsde1 zazldodłr9r1or,{,tł qc,{,trperłrerds eruu.t.rr5s,(zn r qc.(u.terd 3n1sn rc9oudó1sopu,ttru.ldod 1se[fzcepeq rueleJ .ulzpelzp qc,(uur n1ped,(zrd .tr >1ef.or1q,&s1e1 órs o1óur'tzor eru qcf.tłop?sqc,(uepop.{zperrrrurue,t'fu1popo}JlIIeluuł\osolsez.qc, uup r|cero1ds1e>1ruqce1 rc9ozs4órrlrop fctfnsud o,tł1e1 qgsods .tr euu,l.rozrue8roz1sefetu qc,(uep qc,(,tropŁs99ozs>1Ór.tr Z€ ^ \eluod .IlI -e4sny rrr bułrurd cotuod t.tłoptzr o qcfctle8erqn órs o e|cerulo;urqcfct|ererłrez qc,{uepqcerorqz qci(znp .trr euf'{cu|cose ś1nflalaruv1elzp ecbfer,tł11zotun I e'tre>Ielc9dr1po uuzoru ,{zc .rueirrosere1urezts .rqe4sny z t11s -Je^Iuil eqoŁe1z ueIII?łs ^\eJpuv ZeJo l?J€ I IBgJo '(1rsre'rrunz poońóJee^uqol I cI^oł^IeqsBs .ezc?pe{
qc^mosouz|q oluolunzoJz' uB'nołuntPmn l
qcńuBp zeqqc,lfltopbs z qc^ufńceloose oluP,nfułpo łn0ot
5. Ewaluacia iuzyBadaczę zastosowali unikalną metodę oceny swojego projektu. Zebrall' trzech ekspertów z dziedzlny poziomy Te szacunkowe asocjacyjnych. z 144 reguł' każdej dla poziomu ufności skali od nich ich ocenę ufnościbyły następnie porównywane z wtaściwymi miarami ufności dla reguł asocjacyjnych odkrytych w zbiorze danych.
6.Wdrożenie z mePowstała przydatna aplikacja internetowa, WebAssociator, tak aby niespecjaliści mogli korzystać injeden z formularza jeden następnik poprzednik i chanizmu budowania reguł. Użytkownicy wybierają jako systemu sądowego część wdrożony zostać mógłby ternetowego. Badacze sugerują, że WębAssociator
::tTt""t.'"-t".
przypadku Studium drzewdecyzyinych spÓlekzapomocą bankructw [22] Przewidywanle biznesowych uwarunkowań 1' Zrozumienie w tym ostatni kryzys ekonomiczny we wschodniej Azji spowodowałniespotykaną liczbę bankructw spółek z UniChang Namsik University, z Kyonggi Sung Kyung Tae badaczy, Ceiem świecię. regionie i na całym veisity of Seoul i Gunhee Lee z Sogang University w Korei, było stworzenie modeli do przewidywania bankructw spółek, które maksymalizowałyby możliwośćzinterpretowania wyników' Czuli, że możliwość zinterpretowania wyników by|a wazna, ponieważ negatywna prognoza bankructwa może mieć niszczący i lowpłyń .,a instyfucje finansowe, tak że firmy, których upadek się przewiduje, domagają się mocnego gicznego uzasadnienia. Ieze|iczyjaśfirmajestzagrożonaupadłością,aptzewidzentebankructwamozeprzyczynićsiędoostatecznej klęski, zatem byłoby lepiej, gdyby to prognozowanie było poparte pewnymi konkretnymi dowodami' decya nie piostą decyzją ,,taklub nie'' dostarczonąpfzęz czarfiąskrzynkę. Dlatego badacze wybrali drzewa wyników. zyjne jako ich metodę analizy z powodu przejrzystościalgorytmu i możliwościzinterpretowania
danYch 2.Zrozumienie w laDane zawierały dwie grupy: firmy koreańskie, które zbankrutowały w stosunkowo stabilnym okresie 199.7|at ekonomicznego tach 199I-1995, i firmy koreariskie, które zbankrutowały w warunkach kryzysu Dane 1998. Po kilku procedurach sprawdzania zidentyfikow ulo f9 firm, głównie z sektora produkcyjnego. przęZ i sprawdzonę wartościowych papierów giełdy z koreańskiej finansowę zostaty zebranebezpośrednio Bank of Korea i Korea Industrial Bank.
danYch 3.Przygotowanie sześć Badaczepoprzezprzeszukiwanie literatury o przewidywaniu bankructw zidentyfikowali pięćdziesiąt zbiorze daW powtarzały' się ponieważ pominiętych, zostało 16 zktórych finansowych, współczynnlków
'qc.(u .ns{z.{Dl -I?IIilou 1ń9łu11n,Ąe op elnĄlsyel't\IJezJd .ĄĄ qcBłulLI?1ń 1K el^\lcnDlueq qJ,{cŁ[nulJoJul o ^\głIuuńZc eIIIopBI.ĄĄ9 lerzpreq eruceqo bs rero;E .u e,łrosueug elcnfi1sut uroruupeq ul.Ę r1órzp ryupef .,ĄĄ9łIu.Ąo)I] śznelu .|erugezc.tloueruuods1ń .o3e11e1oąe|eruezorp.tl o8euolu1snoł'{qerN -uuzn po o1sÓzc śza\vzeruezoJp1Y\ ąe1 .9 0!u0ł0Jpllll .o8euf'&dcep etezlp zezld euuzols,ĄAeuuelluz EłuIe|MeZuu|,{cuururfo1s.Ę e|c>1uq B,,r.rocyoł B .e,Ąó.ł 1apoul -crll)luBg€ I uP.ĄĄfpr,łrezrdop ulrl;u,(zceu1o1sro>1u|qc'(uorupó13z.tłn op]soz 1ń9{Iuudzc19ds.tr 0' qc,(l z eIeI^& 'łr94tu.{łr qund € I uelselupo o1uf tut.{ceurur,(r1sdp ózrpue Łu1or1olel,tn Ilu,ĄNosolsez ezcepeq ncgoł ^& .qc.{uepr,Ąqgłd o6 67'{1r,ł.roue1s 'qc'(uep nf,oIqz aZ IuJg Ttllulnq łrg>1rułrocurd eqzcll €rupeJ' r [eu1o4uoą rłg-oJde^Ą{DI€ elupeJ9 ez ,ofqpg -'{4e z [eu1o4uo>1uq9rd ,(1nq,(4uouuu.tgrod l .(1errr.o1n.rąuuqz elu eJ91ł .ulrg b1q-ord tu1o4uo1 ouerq'(,t.r .qcdzcrgłgf.u uug qcDlsgueJo>1 qcrr11sfzs.ttruoIqZ elp ,(uorqg8on łB1sozIepow sz .órs 9lu,trredn.{qy
,{z4or1ru,(,r
"""rr;ffJ;:; -erJJuełEZ 'rug qc'(uur po uIeAlcn.DIII?q auozolaez ,(urrg ńcŁfuruzgrpo 1nq'futet|zsteluzem|eu o>1e|np1d -Dl l7,ou|Ąo!ual łlu7%lsil 1prqf.u etqgfuroupef,{zJ9lł .IłJf,4Ąosueug .u9geds1e arue4}odsII3ło^\Z ezJepeg Blcpnleill
'9
.eruezp.uerdsezspp o1,(qeuu8eurńr'rza1oaa1e\p.owezl o.ĄAo{unsolsupłrodó1sf,łrntrox1dtl4 lc,ou|tĄo|ual DlluvD!Śi'Ą e[c3)1g,(1uepro} .B.tlcnĄueq nrue,tr'(prłrezrd o ezJnl?Jelll .u urer{ruudzc llliuvuz ezrqop lsel ryuglo? nu(4daad ł!u,04s,h ZaIJII1J'qc,{uzcrurouo4e ,t\g{uluu.lĄop eluzeleze|u ,ezstaluzent .7uo) l4uglo? nuĘdazld .|eu órs i1ezeąo nłłłldrullc,ou/ńorual 1!u?D!ŚM zen (uo{ qsoc łlu?ryŚ^Ą . .'{zs o6y3 blcgoupełĄop o:Wcnuluoq z |npl.nazil' qq |eruur qc'{,tounu tZ, L8 .(ułr9; lsal .t.r.9.tt'{sed .fzs|eruur .re1o3n1p op .Ąó.gcł\ołulzpn r[c1t rc9oge,tr qnlvg,zdu,t.rgr op Di,ł\gto8nł\ 1sei.tłg.ttfsed łeunsols e -t1dazńe1tuvals,Ą( r qnl ,(zsferuur '(u,ł.rgr rcgourrro1ueJ >IIu7DIs.ĄN IIeZeI . 1se|n1e1rdu>1 łeunso]s I9.0z .o699 blcgoupemop z D/A]Jnł!uL,q 4ru q |npr.uezrd ,Ez, qc.{.rrourrrue1o3nłp op lĄgJ,t\ołerzpn rfc1e Ic9ouB.ĄA L87|u fzsr1ór't 1se[.tłg.łnfsed łeunsols llezef . .obs8 ElclowełĄop z D(A]cnąuoq ,vg,7,1Iu.{zs1ór,t pl't\glo8 op nłrĄdezrd ?łIu7?łs.Ą& 1se|^Ą9,ĄA'{$d 4oą tnptnazld {eunsols \e?eI .obl6 :errgou -p?p{op z qw)nDpDq łolq |nplnazld , 19,O7,4Iu f zs1órłr 1se|np1rdeą lc9ou.ĄĄolueJ łIuZBłs1t\Iezef . :ect|ndó1seu,(1fqnsfzfq qce ulu€ . Ąe łr qc'{uepep qcĄd.upo p8er z ergqer1q .obv8blcgowv1piopz olulrułuoq tnpttszld.dzszru qn1 1se|.ttgłr'!4e ńurns op p1'łt9ro3 99.9- du,to.gr n.trd1dezrdDIIu7aIs,ł\ l śzszluqnl ńu.trgr . IIezaI 1se[n1elld?ł łeunso]s s9.6I IJ9ouAo1ueJ {ury{sł\ .oń96elc9owBPlop z Dw3nąuDq łDJq lnpr,trezrd,9g,s_ qlu fzs1órłr 1se[łlg.tu,(qe,(ums op 11,ta'9lo3 n.łr'{1dezrd eąru7ełs1Y\ łeunsols 11ezef . .obggvrcgou -p€ p[op z DlW)nDluDq tnplnazld,s9,6| 4Iu '(zsąór,łr1sefnp1rdu1 lJ'ou.ĄĄołueJłIu7Błs^\Ilezef . \olq :ec?lndólseu '{1fq qc.{u1aurou.Ądg{uru€ . ,rr op órs qc(ctzsoupo qc'tuup ąp qc,(1fqpo 1n3erz er9qer5 'łffieJ
^Jolqz
,9 ge.troreue8 o.tr1u1t8oru qc śu|śzfcep ^rezJp elepoul ale:rzpzol,t ,(rueuo1ezrd órs 1u1 'nsdz,ft1 ,Ąg{uluE^\z qcfuup op r qc'(qeurrou,&o{urue,ĄĄzt1cśuvpop eue,tlosolsez ś1e1soz qc,{u['Ł.{cep^\eZJpelepou euqoso alupril0lepoil't 'tcgoufep'Qnr rcgouzceln>lslcgou.ra,.{pyu'etuaznlp -ez9/^lsyez)eldzeg .rcsou.uo1ueJ .nlsoJZ1Y\freru qcńct|erer.tuz .qc,{.tłosu?ug.ĄĄgłIuuśzcgp o1v1sozt4c(u
#ffi pro|ilu t-średnich metodą analizy skupień turystycznego Przedstawienie [23| rynku biznesowych uwarunkowań 1.Ztozumienie Badacze Simon Hudson i Brent Ritchie z University of Calgary w Alberta w Kanadzie byli zainteresowani zbadaniem zacltowatia turystów z prowincji Alberta' Chcieli oni stworzyć profile krajowych turystów z Albertana podstawie decyzjipodejmowanychprzez samych turystów. ogólnym celem badania było sformutowanie ilościowych podstaw rozwoju kampanii promocyjnej, sponsorowanej przezTravel Alberta. W tym celu, głównym zadaniem było określenie,jakie czynniki są ważnepodczas wyboru celu podróży w Alberta, aby ocenić odbiór w prowincji ,,najlepszegomiejsca urlopowego w Alberta'' i spróbować zrozumleć proces podejmowania decyzji o podróży.
danych 2.Zrozumienie Dane zostały zebrane pod koniec 1999 roku w telefonicznej sondzie na 13 445 mieszkańcach Alberta. Respondenci zostali podzieleni na tych, którzy skończyli 18 lat i w ciągu ostatniego roku wyjechali dla odpoczynku co najmniej 80 kilometrów na co najmniej jedną noc w Alberta. Ęlko 3071 z 13 445 ukończyło badanie i spełnili warunki niezbędne do uwzględnienia w badaniu'
danych 3. Przygotowanie W jednym z pytań,proszono respondentów o wskazanie, do jakiego stopnia kazdy z 13 czynników z listy wpĘwa na ich decyzje o podróży. odpowiedzi były następnie brane pod uwagę jako zmienne, na podstawie których wykonywana był'a analiza skupień, i zawierały czynniki takie jak jakośćkwater, wakacje szkolne i warunki pogodowe.
4. Modelowanie Grupowanie jest naturalną metodą tworzenia profili segmentowych. Badacze wybrali metodę t-średnich' ponieważ algorytm jest szybki i efektywny, pod waruniem, ze znana jestliczba grup, która ma zostać zna|eziona. Sprawdzili modele dla od dwóch do sześciugrup, zanim ustalili, zerozllłiązwie z pięcioma grupami najlepiej odzwierciedla rzeczywistość.Krótkie profile grup są następujące: powierrzrz. Najmłod. o Grupa 1: osoby mtode zamieszkate w miastach, spędzające czas na świeżym sza ze wszystkich grup, wyrównana poz względem płci, z planem szkolnym i budżetemwpĘwającym na decyzje o podróży. o Grupa 2: podróżnicy odpoczywający w pomieszczeniacż. Następna najmłodszagrupa, zdominowana przez kobiety, głównie mężatki z dziećmi. Głównym celem podróży jest odwiedzanie rodziny i znajomych. C Grupa 3: przed,ewszystkim dzieci, W tej grupie jest większy procent małżonków i dzieci niż w in. nych grupach. Dostępnośćzajęć sportowych dla dzieci i harmonogramy zawodów w znacznym stopniu wpływają tadecyzję, dokąd pojechać w Alberta. C Grupa4: przyjaciele dobrej pogody,Druganajstarszagrupa, zniewie|kąprzewagąmęzczyzn,zdominującym czynnikiem decyzyjnym - warunki pogodowe. o Grupa 5: najstarsi podróżnicy świadomicen. Najstarsza z grup, dominujące czynniki podczas poi zapewnieniebezpiecz'eństawa. dejmowania decyzji o podrózy w Albęrta to cena./wartość
.000z .,(aII^\. ,3utut7,ynpq ?utł.a1sDlfr.lJoUIIuopJoD.'tueg IN.uo{oqoH 1eeqcr6 [71] .t66I .uełoqog teIIł\',1loddng .łauo$n) fN puD SapS ,3uua7n741"totsanbruqca13utut117 oąt:ą,11out1uopJoc .,(rreg 1eeqcr6 [g1] .986I .$Ioog JeuJBł\.9 .p'{ł\,spuał|oga7,y !1rqsreN uqol [ZI] łJo^ 'ł\eN .TuI1LI .
/woc. uqT
9 6 ZauTue1ep
.uos1":;.".T:":.
.u]]q - ^.e1\JnS r^ " -^^-T€ s
/ 9v : t
7 se6ed/
. J:Su I{JJ€ o saJ>{uTi{]-J1v11u1vr/ululoJ
.euu,{łrg re1e6[11] ,:,::,::.,"!qJ,ewp ro; 3ul33rq
/ lt. L/luoc
.
.sJI]IeJ =.łu ./V\1V\1v\/ uo]sog eIłJ [0I] / : dlfił .lvuttvt/ | d1tfLĄ'IaaAĄ /
łoeĄuoTf
€ t uJoJuT
uol1tlu,tlotu1.dn,(e4 :'(enrn5f.leles II IeuoIlBN 666I eql .ąnqcsefe1utr,n reyuue1 [6] .1gg7 ,uau-ay 'treruqeg,ld.renuu1 K?o1ouqca1JIW,ueLł\oIAeE 't8o1ouqce1eqJ [8] 'uupz=Ace.Oef . ć TuI1q Z t,0 8 Z 9 - T T - 0 0 T Z / luooc. luoJ . f aupz . /vlJW\Ą/ / : dą ?tł, IOOZ,L 'fturuqeg .SilaN IflNQZ.p1o3 ro; oJuI Jesn 3ur33rq :3uru44 €lBQ .puJuo) 1eqceg [1] '866I IN TeArUoIppBS reddn .II€H a3l]uel1,uo1ruquaulayńu1o1 1dacuo3 ulolg :?ulut7,yopq 3ullanocs .seeqle.ł .ra1pu15 .uutullpeH -lq .lseae7 oJpuBSSeIV duu1 olq€ d .eueqe3 re1a4 [9] 31og '9002 e,y\-/y\, 'qc(uop ntco.to1ds4E.1od.run1l:tooz 'eSpgqure3 ,sser4 rNrvr vlt npq lo sa1dtcutl4 .Ęilru5 cleJtłpsd .e1rurre1,x ppIIeH .pueH pl'req [9] 111ą,3utut77g .lltoc . .rau1:e6 .lrłrwvr .dnorg Jeuu€ c oql ['] '/ sseJcns /uroc .ssds7/:dtłLlf ..cul .ssds ,slouln1uruJg qilMuarprq7 a^DS ot o1oq ?utut7ry[g] .Tul]tł. 1ur.rd /TJo1TJrl)/ 90 / Zl / Z00Z / aT-rLf€ e J /ScT]TTod/uloc . uoTps . M!Ąlu\/ / ,ułoJ,uoIDS,|Jceeds .uo1uqJ : dl]T'ł ,Z1OZ,9 Jeqluece(I ,&rsre^p;1 łle5tr {Jo^ IIIS [z] .TuI1q.buTuTlu a^TIĄJa.e oTc 869TE0 / /uoc. .lvtlvltq/: d11rł .866I .sI Ke1ą,aulztl?Dw .slJqegra1e4 / oD.uor1u8tleu pecue^pv [1]
PlnlBl0ll'l'/'I,,:,..'rf .19,{tu uu lzpot4ctzłd '{zs.tł.retd frgł1 tzgrpod {euruaDl ołut eueq1y (gzcq o6g7peuod, rpn,(ze1słr śzryl4,zt.gcye4zserur o oł?łromJesqoeząleqy pnel1.śzel 1soJz.Ą\ |e:oqsd .PuaqIV.. '{urel4ereutfzrrrre1e1 0z ołoło erc.{z o1or 99 |ezruod qcfłsorop o696 o1śzceqozś.Ieproo1 epBl^tr 'rrreseuzlqeulapbzt fzpórurod luelue[unzoJod qc'{cbpóq łrgqe|ord 93 peuod Ó|cezl1eel o1ózcodzog .qcńu -ep tlcerolds1a suzcpod qc,Ędqpo dru8 'rtgdĄ op n8ur1a1ruurnrue,vrosedopeu |euedo ...JepJo o1 apew tueqlv.. leuf'{couord pedurer1 lemou eruemop1sfordsuzcpod eue1sfzro4'(rrr.{1e1sozyepeq qc.Ę p1pd16 0!u0?0rpfll'9 .eu1o1sreruzcf1sń1e1sts ruredru8 śzpórul ecnlzgl az ,zerrulrigre1vze4od uu[,(ceurur'fu>Is.,(p ezqeuy 'fdru8 fe,łłrc9e1łr op qc'{uepeq obt6 oloĄo etu.t.ru;dodct|n1g,{se14.rfcez,&o3e1eą..IJsouIeeJ..eruezp,l.rerdsop Łut,(ceurur.(rąs,(pózrpue ou?.ĄĄosolsez
P!cPnlprnl'g
[15] Cytowane w: Mihael Ankerst, The perfect data mining tool:Interactiveor automated? Report on the SIGKDD-20}f Panel, SIGKDD Explorations, vol. 5, No. 1, July f003. [16] Peter Chapman, Julian Clinton, Randy Kerber, Thomas l{habaza, Thomas Reinart, Colin Shearer,Rudiger Wirth, CRISP-DM Step-by-StepData Mining Guide,2000, h t t p : / / u r w wc. r i s P - d m . o t g / . [17] Jochen Hipp, Guido Lindner, Analyzing warranty claims of automobiles: an application description following the CRISP-DM data mining process, w Proceesings of the 5th International Computer Science Conference(ICSC'99), s.31-40, Hong Kong, December I3-I5,I999, @ Springer. [18] Jen Que Louie, President of Nautilus Systems, Inc. (www.nautilussystems . com), testimonybefore the U.S. House of representativesSubcommittee on Technology, Information Policy, IntergovernmentalRelations, and Census, Congressional Testimony, March f5,2003. . com. [19] www.Claritas [20] Alan M. Safer, A comparison of two data mining techniques to predict abnormal stock marketreturns,IntelligentData Analysis, T,3-I3 (2003). [21] Sasha lvkovic, John Yearwood, Andrew Stranieri, Discovering interesting association rules from legal databases,Information and Communication TechnologyI'ttw, 11 (1) (f002). lffl Tae Kyung Sung, Namsik Chang, Gunhee Lee, Dynamics of modeling in data mining: interpretive approach bo bankruptcy prediction, Journal of Management In' formation Systems,16(1) 63-85 (1999). [23] Simon Hudson, Brent Richie, Understanding the domestic market using cluster analisis: a case study of the marketing efforts of Travel Alberta, Journal of Vacation Marketing,S (3) f63-f'76 (200f).
g* 1.8.Cwiczenia 1 . odwołaj się do przykładuBank of America z począkllrozdzia|u.Które z zadańeks.
ploracji danych są Sugerowanepodczas identyfikacji ,,typupodejściamarketingowego do danegoklienta, na podstawiejego indywidualnego profilu''? Które zadania nie mają wyr aźnegoznaczenia? f. Dla każdegoz ponizszych stwierdzeń określodpowiednie zadantelub zadania eksploracji danych: a, DruzynaBoston Celtics chciataby oszacować,ile punktów zdobędzie ich następny przeciwnik w spotkaniu z nimi. b. oflcer wywiadu wojskowego jest zainteresowanywzględnym stosunkiem |lczby Sunnitów do liczby Szyitów w danym regionie strategicznym. c. Komputer obronny Norad musi błyskawicznie zdecydować,czy pulsujący punkt naradarzejest stadem gęsi, czy zb|tzającym się pociskiem atomowym.
danych obrÓbka Wstępna
Rozdział 1 wprowadził nas w tematykę eksploracji danych i metodologię CRISP-DM rozwoju modelu eksploracji danych. studia przypadków, które omówiliśmy w rozdzia|e I,zobrazowaty nam sposób, w jaki ludzie biznesu ibadacze stosująetap 1w procesie eksploracji danych, czy|i zrozumienie uwarunkowań biznesowych. Widzieliśmy' jak ludzie biznesu ibadacze najpierw formułują załozeniaprojektu' później ptzeldadająte zaŁozenianaopracowanie definicji problemu eksploracji danych, i w końcu przygotowuj ą wstępny plan zreaLizowania tych za|ozeń, Tutaj, w rozdzia|e 2, ptzyjtzymy się dwóm następnymetapom metodologii CRISPDM, zrozumieniu danychl'przygotowaniu danych. Pokażemy,w jaki sposób możnaoceniać jakośćdanych, czyścićSurowe dane, radziĆ sobie z brakującymi danymi i dokonywać ptzekszta|ceńdla pewnych zmiennych. Cally rczdział 3 jest poświęconybardzo waznemu zagadnieniu,jakim jest zrozumienie danych. Sercem projektu eksploracji danych jest etapmodelowania,który zaczniemy omawiać w rozdzia|e 4.
dane? na|eży obrabiaÓ 21. D|aczego {:........,... Większośćsurowych danych przechowywanych w bazachdanych jest nieobrobiona, nie. kompletna i zaszumiona. Przykładowobaza danych moze zawietać.. o pola, które są przestarzatelub zbędne' o rekordy z brakującymi wartościami, o punkty oddalone (ang. outliers), o dane znajdującesię w formacie nieodpowiednim dla modeli eksploracji danych, o wartościniezgodne z zasadami lub ze zdrowym rozsądkiem. przez Aby baza danych byŁa przydatna do celów eksploracji danych, mlsi przejść, przeksztatcania danych. i danych wstępnąobróbkę danych w formie czyszczenia Eksploracja danych często zajmuje sig danymi, które nie byty używaneod lat, takze wiele z nich zawiera przeterminowanewartości,nie mĄące juz znaczenia,lub po prostu nie ma pewnych danych. Nadrzędnym celem jest minimalizacja GIGo1: minimalizacja I GtGo (ang. garbage in - garbage out, wprowadzisz błędnedane ttum.).
uzyskasz błędnewyniki (preyp.
.]ncl]couuoJ .JnclJcouuoJ.suo15 ezJeUZo oc,69Z90 eluqopodop Jo r]ISJeAIunóqlzpers -łrerdo1.,(llro1zcod po;1 .|-elnl9rdtlseu ołPlsruueluzcś1ne1oJ.0 oZS.ĄAJord erunsn|eluqopod -op't.rzrd|eu eruu,uoruer8ordo.(1qe1)e^\ołBuzelue,euzcśserunuor1u|euol'eĄo lse|npoł .elu eruqopodopłrer4 s1odqeze1 .g tr;.{c ólsb,|euśzcezq8uy |ełro51€ Ip emo]Zood'{po; ,pbłq?śqISmu ol ale7ez ,69Z9 iep.terd |ełrge|ndłsf.łr łu| Heł tłropcod po>1'tłrorg'(c .tłcu|€Dl -ole1z) Ł|elu oJ9DI o cru ^(ruelłr aIN .'00I PlueIpIur,{łrotzcoduepoł Z oc v .n|eq po lc1ouzelez łr órs ruz9r.{r9}ą tłro1zcod poł n1odłr Ic'ou€,{ e;1ń.t.t.zeru uu łrro]o3 '(rursnur(łuerueer8y łB|.IuDI?J 9'(q ep€ł aoJd uBcIJaIuVquoN) nlpu€t{ urńu1ołro ,{łrorun|erysge1fuauleoucou1gd eluenśz -tt.toqo ezlezsqo ruń1 eu eru19?azcz1 .e1odeue8eurfłr ,tr ,itro1zcod po>1ń.,rtoruop[9łrs psldłr r ndru1uzłBuo{opą'(zc|'(puuey '(uzc'tzó|o4snJuu4 az o1 .9|zlepz órs oprsnur oc .oI .B}ueIpIo8ecb|eru1sreuep o^\IZp1Y\Bldezceuzo ,elzpeu |eruqopodop^rurd|eu cól,r.r>1e1 .qc'{łrolzcod -B) 'Y\.nceqen} łr eq]urcue'(H.1sfłrolzcod poą o] rc9o1sr.tł.'{zcezr tse| 7y1 1!\9po{nl8rruoJ o8eruus oaetble1f'tlznofBDIer:11s'(zsrn eru ez '9e1g'tur'(rueruelsezrdelu uI|JEZ.np.ro1ereruecnzlńłt 1pb1qo4e!1c'ou?^Ą|ep1'iuzeru|e1eruu,t.ro1gńse1ąs o 9rsm1od óts 'tu9'(qł8oul .lu?or1so'(ul9.{q1fq elu ITeZeI.LX LST,I 'it.ro]zcod po>1(uulue1'treury ep |eruurleuśzld)śunlzpuel etu Z€JaI .VSn zvr>1e[.dłro1zcod poą ń'tnor;'{c luerH Z00I -olcótd ń.t.rod't?|eur qcz(uupeveq ł\ IcueIPIfcs'Łsłr ez .'.true|ru1ezlo zI ,śanzg1u7
000€ 000r 000r 000t 0009
}{
s S
1K W
0g 0
sn
0v )
66666 00009 000000 0l
0000r0009r
) N
) N
IOIS9 6929 0r206 L>ILSZ,T 8ż00I
s00 r00 900 200 r00
ru,{1itr'(ure1qord9ep1e[zsrzpr,t śzJ.I.7, BIaqBJ |qc,.{uepezrcIqz run11era.reru
.ezJqopepb18ńnrDrualpl euue:rnz.I.z i{uo1zcod poybuuaruu eZ o)Y oI 11eqelł\ qc'(uep ezlolqz.trrŁlndó1sńłrero1ą..t.9rue1qoldzeJgDIaIu.ercnqń4uod tnq'ftte '(urłr9ru6 .|Z .qc'(uup ruoIqZ o8ep11erłreru op loł\Pu Óts g;vlyez 'Ę8oru ergq ryeqelłr 4e| o8eryu] .'\\gpółqulod'$ n11p1ó1s Ń;o|KzltŁzld.qcńuep etuezczsśzc ,(qy 9'ouzceluoł 9ełror1sn1rz
. ;;1,.: qcńupp o!uozczs^zt z.z
.qc'(uepeIuBJłB]Zsłezldl l7cśuepaluezczsKzc - rlcero1ds1eop qc'(uup plqgJqo ,{po1eu e'tołre1spoderłrp '{rumrguloelwzpzo.l ru'$ 16 .qc,tuepl|cero1ds1esec -ord 'Ęec uu o3euocór.t9od n11ls'(^\I nsezc o699 a|nlu|ez qcśuvpe>IqgJqouudó1słrerrres a7' ,e|ncezs |1] 3utut71 ołoq nt uol1olndal4 opą aczbls>1|efołrs't.re1'{4ueuoo .łrgąruńłrqc'{upóp .n1eporuop órs ?[e1sopoJ9DI...IcefuIS.. qcŃrcuśzl1o Óqzcl1ł€ł\oZIIB{uIuIuIopou '(qe >1e1
Następne po|epteć wykazuje brak wartościdla klienta 1003. Metody radzenia sobie z brakującymi wartościamiopiszemy szczegółowo w dalszej częścirozdzia|l. PoIe dochód. o którym zakładamy,ze zawtera roczny dochód brutto, ma trzy potencjalnie nieprawidłowe wartości.Po pierwsze klient 1003 pokazany jako mający 10 000 000$ dochodu rocznie. Choctazjest to całkowicie możliwe, z:wtaszczabiorąc pod uwagę kod pocztowy klienta (90210,Beverly Hills), ta wysokośćdochodujest niewątpliwie punktem oddalonym (obserwacjąoddaloną), skrajną wartościądanej. Pewne techniki Statystycznei modelowania eksploracji danych są wrażliwe na obecnośćpunktów oddalonych; w dalszej częścirozdziahlomówimy metody postępowaniaz punktami oddalonymi. Bieda to jedno, ale rzadko moznaznaleźćdochód, który jest ujemny, tak jak w przypadku naszego biednego klienta 1002. w przeciwieństwie do dochodu klienta 1003, zgŁoszonydochód klienta 1002 równy _40000$ |ezy poza dziedziną dla pola dochód i dlatego musi być błędem.Nie jest jasne, jak powstałten btąd, być może najbardziĄ prawdopodobnewyj aśnieniej est następujące: znak minus j est pojedynczy m błędemprzy wprowadzaniu danych. Jednak nie możemy być pewni i powinniśmypodchodzić do tej wartościostrożnie,próbując porozumieć się z administratorem bazy danych, najlepiej znającymhistońę bazy. A co jest niezwykłegow dochodzie klienta 1005,równym 99 999$? Być możenic; w rzeczywistościmożebyć poprawny. Ale jeżeli wszystkie inne dochody sązaoL
.(.wnął.dtzlĄ luc 9.z ołołoo1I€ J g .(.ułnp.dKzlĄ p1oc o1nąs1alBueod śanll7,
.r;>Il(111€Izezrdbuolse.Dlo IB .tł€]s bułred Ic'ouP.,Y\|ect|qerq alueldb1se7 .1 qJńcŁ|DIeJq e1pqcśzcdó]Sezlosoilu^\Jgqdł\eLĄeTIZoun :I'łcńuep JeuIW InJtq8IsuI ^ 'rrrrsrJol^Dl Iulśuzgl Z erupo?Z rrIIBIc9oue,/Y\ runt|zcdl1sezIcgouuł\ act[DI€Jq blaewłez oJ9DI .po]eu bten(zn qc^u?p ,(cń11uuu?e1 o8ercIq .Ic'oueł\ |eupe| e|ru1erqez ,o?a1e1poą1ń119d qc't1e1sozodqcry1s'tzs.,r.r u1p r|ceruro;ul eIueI'Ą\€łouJ?IIIo1 ,(qo1,{q.olpuuod .qc'(uep ru -olqzpod o8euoztlcqo ńzr1etm '(qopzpułrordop op lruelc'ou€ ^l rruńcŁfru1erqZ AgpJołaJ ercórunsn e]sord e .eclozly\ cśzrcn1t8oru rcgo1.lu.trr ectlru1erqze.ueluod ,auzceldzeqelu .rululc'ou?łr rru'(c?im1eJqZ ł\9pJołer qcĄ śzl1xuesuzcpod eruef gńq ot ezoru łeupol -rurod nlsord od rrrerJtouely\ rul{cblm1erq z arqos Eruezpal tpoleur 3ure1ndo6 lsei '(uroc ' 'ruryvr)uoqerofuo3 1n3:1qbr sur .tcsopz'ta.qc.(ct|nąurq śzl1elmop ric1es InJ1q8ISq Z Joultr{ InJ1q8ISq 01 |e1'rngułr'tzn '(tuelzpóq o8er9q .elue.tn,otuul3ord6.(orezs uu rur'{uozceuzez)19dIIIIeIc9ou€ł\ rur'{ct[ -qeJq €rrrołIpl z ,l7ctuep ezlolqz ł\ 1(9pJołeJ 61 qc,Łs'trerd 1oprłr etne1spezld 1'7 ..ĄAgpJołeJ qc'tułredBIp Igd lc9oueA\qc'(ułrede|n4erqez,>1eupa|,ńUI49łE4 'lolep
ąeuns,(g
.qcfuzcluuqceru ruoł eIqZcIT.,ucu1ecł\ e>IIuISrcgouure|od.zvrgrpuq'(c elqzcq .e.trrr1 {Ę | -ed nlcśznzo euep vlelh\ez ur,t łr .qc'$trserzpluelso r qc'Ę?rsezpruepels qffi1€I łr qc'(u -u.tło>1npord'(t qcepoqcoru€s o ófceurro;ulelelllizz.H?tIsł qc.&lro1eu.le1ul qc?uołS I9z eu ZeIaMgr'fudfisop .qcńuep Ig\qZ .qp / cTullq3af /u]oc . t6s .l1Ą.{v\lq ?u 195 qc'(uep '{cluqreąs lełro]eure]ulm ,{udfisop 1se[r .scrqdeJc uoJIIIS z o8elzreqo; o8euuog l ure>1 -ceg o8eleg zazld ńuozptzrods ozuoą1bzcodp1soz ,fu9tą,(Kpoqcou,ns)sltlc qc(uepulal -olqz .qc.{uupIueJoIqZurń.uouz śvleuzodez.rłroule1qordnrue1o1ozc9l.,r.re1s Óls '{qy 'qc'(uep qc,{ct|ru1urqŁr1se.ł.r1 bnl1zelp z ce,todólsod '{ruelzpóq qgsods H€|'!\ ,ce1st:oilazldelupuplop ńurgruurłrodze1 o3e1u1q.|e1de1azsnaz er'vrerdulń1 .qc'tuep fecór,,nanl ,elzpesez 1tr .'(uup?zod1sa|'(peq .Igd bqzcą bvnp z qcńuzp qcezaq M ezczsełMz ,Igd lc9oue^\ oĄpeu r|curruo;ur łBJg ecŁ|nąurq 9n1,!odeu 'truerzpóq 1epeu .eue.łrosuz^\?Bz bpÓq śnpue ,(po1au azseu l1eze| .qc'(uep tlcero1ds1epololu śzcĄop e18tlc fuop1 .ureure1qordŁs euep ecŁfnąerg 1e^\BN
.:':::; . qcńuep qcńcbln1etq PEnlsq 0 s.z .ac1soupe| rvr [e1 euozrerur bs '(pro1er enns.,{zsłr az l ,v1śznełelsoz'tmlur apsoupel .erułrerdodept1?dłr tu1nsunl1 D1o/q elod u1e[ .'(ruerłrez .lułted '(ur9e1se| Pl9dop €Ip s 1lfnndas u {'cbp)q śzcQa1nun47ouuod)Ku1ou'msezceuzo '00I I g00I 1Y\g]uoIH .Il1ouzceuznlvrpure1qordZelu.il\gJ .'(ctro8 l1(zc,pnnqc Kzc,pep1śzldea.y7 ITeqB]^11 lsef ezceuzo ,,),, Ze/ńeluod,9lnlzpz órs zsazotu ,7o,).,blel11t|aozceazo uerą zslcór{po I nlu .pup1.{zrdu5 .Iu3^\DIe>Is3z -ełuotr^tr ,Ą\ eIJaI€ o ] łr .{połr |elu:'llrz ZsDInzs r1eze| '(ur9e1se[ I]fEsezJ e1e,b|vzceazoe1oqurfse1oc .'(tuelłtez .ńtut19'(tu ,(cs'Łs16 .r1oqur'(sqcf1 nruezc .eUZM I,ĄuI]IuelqoJd.aluzcoruo{elueIV ;epłrerd ,ezlqop up?13{łtKu11u(cuD$ e|oa
Rys.2.1'. Brakuje pewnych wartościpól!
f . Zastąpienie brakującej waftościWartościąśrednią(dla zmiennych liczbowych) lub modalną(dla zmiennychjakościowych). wartością 3 . Zastąpteniebrakujących wartościwartościąwygenerowanąlosowo Z obserwowane. go rozkładu Zmiennej.
Rys. 2.2. Zastąpienie brakujących wartościstałymi wańościami zdefiniowanymi przez użytkownika
Przyjrzyjmy się wynikom kazdej z tych trzech metod. Rysunek f .f pokazĄe wynik Zastąpieniabrakującychwartościstałą0,00 dla zmiennych numerycznych i etykietąmissing d|a zmiennychjakościowych.Rysunek 2.3 ilustĄe, w jaki Sposób brakującewar-
.qcfu1eur8i(roop ouozllqz nlnzr 9t|q śuultttod -ZoJ I a1poJ9ńrerur ..uopołrodqc.{uurzcgldo.?ełreruod .trupergeruułrodó1suzzluezsde1 ,ó1aulbzszn1pey1.uapu1KcIJ'ouB^\nse;4't,uz elqeuo|c eruqopodopłrerd 1se[upo]eu ą -rodord nu'(]órzłr ruIuIJ9o]JP^Ą laśuzgl euordt]sez ń1ąsoz s'lapu1Cc feuuerurzIc9oue.Ą{ ec?|ru1erq7.7 ru1uns'{reu '(p3 sezcpod ,v ?9op1y\ bures ól 3u euolueruez K1e1sozslap ,śul7entle7.|eu -ul1(c |euua[uz Icgouu'i!\ ecŁlnąerq śn1zc g.7 eq]s',fus,t.r n1unsńr eu eT -Uolnluznp€pIZoJ o8euełrołrresqoZ o,/ńoso1 rur'(uełro.leuo3'iłł IIuBIJ9otJ€^\rc9o1.lułr ec?| .efnze1od -nłBJq ezolu JeuItrĄp;lq3rsu1qgsods ncyoł 7db1sez IłBi1'\ ^11 7.71euns'{r .łr9>1tu'{,ł.r BIu€1Y\oZsnBJBz o8ełrr1zotuueluelupó18z\^nZ }IIE\rloIn)IIe)IS 9śqbzsnul rns,{ze .elcótz,u,órspezrdeułroą'(z.{ro1rc9oyełrqc'(ctlm1erqeluełrodó$ez a7.9119er4pod .euozs|eruulz .'{uzc'tsrurf]do '{ze1u51 eruzcrgzs bpóq npup1zor '{"re[u zełreruod 1śqzalzp -óq o3euzc.Ęs'{1e1s eruurvrołsolu,Ąt ulp I3'ouJn ruorzod '(.tł,o>1ru'itrr o1 .btupergŁrc9ope.tł qeze|.pup1'tzrd3N .99ou€1Y\..t.t.od.{1.. qc'(uordĘsez arualsoz lc9ou€ . ĄA qcfcŁlnąerq e1er,t I.ĄAoue]s oc .oBe1e1p rueroq.{łrrufzsde1leu cńq rsntu ezSfu\EZ elu PrupaJg.ul'$ uzo4 'ecslerur trerursecord ua1az'gatzper,utzsnur 1fce411qnd .)e|ĘIZpEZ ścru1a1izc I l.ĄAocgołńcru,t.ro41ńzn azJqop |ulesezc azous,etrśque1 n1e| ł?upef .lcgogełt |eu1o,t.rop n1n1'$sqnsoąe| |eruper' Ic9ouu.ĄĄ aruerqń16.qcńuep eZIoIqZz knlzp ńqu .euupe|n4'ftqegelł\Ic'ełł\.e|cuurro;urśzrcnl ncs|enuBu eIu€.ĄAoIIIBr8ordo 9ru1ed'(t.r .qc,(uepqcńct[ną ez .'{tufeururodezeru .łBupef .trcgou.t.red Z .eISuoS. urńu.tred >1e[ ,/Y\ ćo1 -BJq lue{uelqord rulołr1órs e|nurlez er9D1.eruervrourer8ordo 1se[eru 'Ł3 9eIuI ołT.uI .leuuarurz rc9o1rezvr qc.{cŁfnąerqeluqcpl |e1 -lsńzs.t.t. truperg 1se|o1 eJ91ł.s9.007blcgoyen |euuerruz|at rc'oue.,r.rac?|nąurqopuolu -BZelu€,Ą\olllur8ordo vel o?etm|p.(?.uoqzcr1) b1?blctuuerruz IeIoł Z 1se|(qce1uc.ĄADIIuIIs 9gouurelod)SaqJu)lqn) eluUeIaIZ.7trcgopełr slapu4tc |euuerurzlc'ouu.Ą&ec?fn1urq o1 -ldbłsezerue,t.t,ourer3ordo o3e1e1p,p bunglbpoul z t,tlotcso1ul buuerurz 5at (ug"tpu11Kc oqzc4) slaput1{.caUlua|UIZ.ilu€poru I nulupoJg orupeltł,odpoeuordtlsez 9'(q t8oul rcgo1 IIlIBpoluqnl rullupaJ9 I1u€ I c9o]"r8^\ Ic'oue,tr qc.{ctfn1erq aluatdb1sv7.€ . z.sdu
Rys.2.4. Zastąpteniebrakujących wartościlosowymi war1ościamipochodzącymi zrczktadu zmiennej
Ta zdolnośćZastąpienia brakujących wartości Za pomocą losowych wyciągnięć z rozkŁadljest jedną Z Za|etInsightful Miner. Jednak nie ma gwarancji, ze wynikowe rekordy będą miały sens. Na przyk|ad losowe wartościprzedstawione na rysunku f '4 mają sens, ale byto całkowicie mozliwe, że rekord 5 mógł wylosować cylinders = 5 z cubicinches = 82, co rzeczywiścieokreślałobydziwny silnik! Dlatego teżistnieją inne, bardziej wyszukane metody, które dry,ądo dokładniejszegoi bardziej trafnego zastąptenia brakujących wartości. Na przykład są metody,które pytają:Jaka wartośćbyłaby najbardziejprawdopodobna w miejsce brakującej wartościprzy danych wszystkich pozostałych atrybutach dla danego rekordu? Na przykład amerykański samochód o pojemności300 cali sześciennych i mocy 150 koni mechanicznych prawdopodobniebędzie miat więcej cylindrów niż japoński samochód o pojemności100 cali sześciennychi mocy 90 koni mechanicznych. omówienie tych i innych metod, w tym estymacji bayesowskiej, znajduje się w Statistical Analysis with Missing Data [f].
nych klasytikacii 2.4. !denty|ikacja b|ęd ffi;..;.,;.',.,,. Spójrzmy naprzykład weryfikacji kategorii dla zmiennych jakościowych,aby upewnić się, ze Są one ważnei spójne. Jedną z funkcji trybl brakujące wartości(ang' missing values) oprogramowania Insightful Miner jest wyświetlenierozkładu częstościdla dostgpnych zmiennych jakościowych.Na przykład rozkład częstościdla zmiennej pochod'zenie(ang. origin), gdy Ęb brakujące wartości(ang. missing values) oprogramowania Insightful Miner jest zastosowanydo zbioru danych cars (samochody),jest dany w tabeli f .f . Rozk'ładczgstościpokazuje pigć klas: USA, Francja, (JS, Europa i Japonia. Jednak
.(.unp .dKzlĄ erue.r8o1Ępd o1oąo01 lung+
.qJdu€p vłpglv eluep?q ezs11ep aue8etuflv\ .ezpoJp od ts o3e1e1p.tulrt,edo3e1 '(tuezourelu ruńuorłre1słr ruerJulc 9{q ł?upef 9erzp8 -ezldz ^\g]unJ etr8oru e8errr ołro>11? zcodaz,9ezczsndśzrd ńruezou aEłeZ 9761 9lsou'(łr .qc't]brselzplc96zc zeq qcd1rłro>1pc qzc\ rcelsod łr buepod óBe.,r.r ?|eru ,{poqcouus euur epl}sńzs.ł\o8euo1eppory4und tlcgogułr ezod az ,o1uzeątlr.sq1łq3nu e1odrc9opełr eru -ezilezlL.1|ceurro;u1 op eru'oupo rc9ołr11d1błr ,(ureru.npoqcourese1p |e11c9ołrrzpnrerd uuqopodop.tłurd o1eu 1se|e1un39,761 eBenzeł\eluod .leuuerurznSoDIBZtcgÓzc |eu1op't.r ul'(uo1epporue14und..tuf1ulu..ru'tzseu 1se|etueld1th\ zeq oc .(3>196 .ło) E]unJ s.76I o} npotlJoluss z3z,rr Bul?unurru ez .óIs '{rua|npełnop.reu1p1p;tq8rsu1 eruu,troruer8ordo zezld auozlołqs rr1ń1s,{1z1s ct|upzg .'qc?cŁIsf] ł\ oru B lrrg1un;qcBłles ,t\ npoqcoues ezpertro np?pIZoJn?azlqu'tłre1 u'(u[ur{s ^\poqcoluBs fzcu'(pe|od erurer8o1srq 9eprłr ey7.(Kpoqcouos) slnc qc'tuep ruolqz eZ npoqoollles ó3złr |ect|u1gerr1o |euuorurz u1pńu .|euuerurznuer8o1srq elurepeqz qc,(uzc.{r -ozJo.łusuur8o1slq elnzeąod g.7 >1euns,,(g 1se[ -elunu qcńuuerurzu1pqc'{uo1eppozrr9t4undllcu1g,fiuepl po]eu qcśuzcgeł?zbupa1 ..t\9pBIs€S
qcńzszqq|eu-ł tuilro8p .du .rc9o13e1po 'tJur.ub[n1s'(zroą,(łr '(u4,{ro31ee ,l|cezt1eulsouz Ł[u1s'Łroą eńAouoJneurcer5 .Ęru'('lr oulq€łsoru cepbłoul r łrgqund qc,$ 99ouceqoeu o.ł\IIZ?IKts euzc'{1s'$e1s.{po1eu eułred .ruepó1qeru e .qcz(uepuep1und u,(ułrerdod 1se['(uo1eppolłund r1ezel1ełru5 .qc'{ueperuezpezvrordzrr sezcpod e1e1słrod'(pó1q 9ułr -o1uezerdereuo t8oru ze1ńeruod,elJZBt^ 1se|qcfuopppo .ł\gĘundutceąg'(1uep1.qc'(uep qc,{1e1sozod uopue.I] tu'(qg8o z auzcezlds ts qn1 qc'tuep nseJł?Z crrrer8 o>1s1qórs ?t -np|euzaJ9DI.Iuulc9oueł\ rul'{u[er1sbs (sła\fio.8uz) euopppo (arJu,tuosqo) ,(p1un4
.9'z :::;:f qcńuo|Pppo m9uund ńpolotu ouzcllete llcełilĄuop! ,tldołng o>1e[ '(uozceazo ?u7sozuerurłrod o{cunlg t1err1't1eZ pJołal e .52 o4e| tuozceuzo uerur.trod b:rlnśle Z pJołeJ ?ełsoz vsn .qcńuep IuoJoIqZru't1e1sozodz cgou|gds celslśząnńqy .1|c>1npord n|erą ruepó18złrpod elĘuełDlesuo{alu allB^\ołg'(su11s f1elsoz ,tproąer ewp eZ o] .|Blnłórs op1s teruqopod -opnerdleu oc .oI .npoqcoues o8aupel z oą1ś1ólsblepep1s,ofcunlg r y52 tsu1ą erłrp
I9 9V 99I I I
.;,
eruodul edomg euozcoupelT ,(uu1g ufcuerg
YSn -
P^ilzery
ćIcgo1sózcelzpep|zoJ uń1 'tr o8eu,trrzp 1oc zsvp|t^ śzJ.z.7 BIeqEJ
,*
*1 {351 x30i
"::, t"; lĄ
1M
1S0
15&
17&
W
W
ffi
2?N
tmo ffi
3&
37S
4M
{50
{5&
{reo
8in Rarqs
*cust MiŚsłń|l We:, Mtr: H€ a n. $ld deł]
1&1 U 4991t 18Ź., ?!E3.S9? 8*a.7Cl
Rys. 2.5. Histogram dla wagi samochodów: czy mozesz zna|eźĆobserwację oddaloną?
Rys. 2.6. Wykres tozrzntn dla zmiennej mpg względem zmiennej weightlbs pokazuje dwie obserwacje oddalone
Czasami dwuwymiarowe wyklesy rozrztutupotrafią wskazać obserwacje oddalone dla więcej niż jednej zmiennej. Wykres rozrz|Jtl zmiennej mpg (zuzycie paliwa - mile na galon; ang.miles per gallon) względem weightlbs pokazany na rySunku 2.6 wykaruje dwa punkty oddalone. Większośćdanych jest skupiona razem' wzd|uz osi poziomej, poza d:womapunktami.Punkt po lewej stronie to ten sam samochód, który zostałwykryty
.dtzlĄ nnalag5
.(.unłl łr qc.{uz4er,tłodrrro4u]s eruezpódeu op '{uea.r,{znpreurur '{ufńc>1g- n11pp,Qe1zs,fu;,
.oJeZ Isou.,{1ńnIue,/Y\oZIIBIuJouZ od {łc.{u?pBIp euIBIuIu[u ?9ouu^\ az ,EĄI]0.ś\!1' oael Z
(X)uFr - (y)xuru g - SZ :*x u:8-8:-{aP*;
,óanzpoaBu :o]BII?AoZIIeaIJouz '(qe .(e1od?uIBIu 99ouełr ITuI 69 99o1pórd 9tu8Łrso -IuT.tu99oue.tr)pun1es 8 ołI,$ e|nqezr1od'(r9]1 ...o3er'ro3rc.s,{łr.. npoqcolues BICI . .ouzcd1s.,{1e1s elu?^\olunspod zelułrgl:1rg|,7g-oł-au,n1 |euualulz u1pruer8o1s .3 rsouf.t. -rq '(ueza1od$e| ruIuns'(reN .pumles qcńr9q L.z s7zelo 8'9.9I 79-ot.sarup BIp .^\9poqcolu3sqcezł €Ip buułrozqeurnuz śanvp|eu7.óulzpo? Bu ?'ou€ ^ \ IIiu 09 lc9oł -pórd ercóru8Łrsouu e|nqezr1odpolłJolues śp?eĄ(qcupun1es łr) nsuzc e1l,Kzlalul o1BJglł ,(tpoqcowtls) snc qc'tuup tuolqz ez .pz;1ńzrd e51 0g-o1-a1a!buuerilz śllllenzol
(X)up - (y)xeu
(x)uTur- x
(y)ser4ez (X)utru - X
Y xzr
1se|o1.serl{€ Z zezld Kc -IU49l eruułro1n1s r .(y)uru |eupurrururlc'ou€'ĄĄ po ezs1órłr lsel e1od99o1JB^\ ozpnq |e1 xDu)-ulru.8uu)xuru.upr efcuzl1uulop 1u[.eruezpłreldszezldodełWp (uot1tln1nrulou
xBlu-uilu PlcPz!lPrutoN' t'g'z .e1od brrełrozqurruorz*X e .u1od99oueł\tupul8fuo ezcevzo 99o1re.tr .'tpo1eureuoluq3ezsł\odzol |elzpmqltu erłrp .(urłrguro Klll e \|cez\€uuou łlu x qcelN -IłcelDIIpI1se1.rylu'ilt eu |auuerurz |ep?eąmĄd.tł 9rcqoupefn Kqe,auzcśla(unuouuerruz e|ons fuult.rod qc'{uept|ceroldsąe órs ecb|nurfez'(qoso 7e1o3e1u1q 2otltoz\Duuouz .ppu.{łruu łlń1d.t '(u.rerrupuu '(1erultpóq rueseDlsz ru'(zsąórłrz ouueIUJZev .cułropozvrod bpóqngplzpezldacluzgJ eDI€lzvr9u4ń;o31eqc'(u,uedelq.OLoło{o op uJeZ po nłezpezld z elzpóq.aluozes łr p1und c(qopz 1 tzeq er11s,.Łsłr9śzclpz rłrozce8erq e1enzodelgD1,uezrcpn eqZJIT,{p3suzcpod .00ż.0zru |ezsferuurśq,cłop ebz po nłsrzp -ezłd z etzpÓqezcel? uezlrlpn uupeJ' .nlleqeffiq t8q Łu.t.r913 lu€.,rloseJaluruz ńurge1sel qaza| ,pep1śzrde5 .elqels po órs bluzgl oZpIEq eroq .'tser:1ezb|eut 193o uu enue.nnz
qcńuPp oIupclPlzs\ezld, g.l, 1.. .;:;::.. ,lzp5zrcu qc'fuvrou eą11ą 9euzod '{tursnurłrrerd .qc'{uo1eppo -[eu e1e .,rno1ąund elue,ĄA,{Ą'fuA ńpo1eu euzc'fieurnu ZeIu,/ń9J '(tur.trrgurg . .ruepó1q eu ełBIZp pgqJoues ez eqtk7c z elueluśzc op 'tureruarcsr,u'{zc6 sn]I[P ,{1e1zs'{r1 .euelelqz 'Q'(q euep a1 'tp8 ,,OLqcelal rrro8euzc,Ęe?reue ns'Ł'tq qlesezc lrl.ezczsełly\Z ,lącesezcqc'(pzeą .ĄA ?^\oq{uoqńqetrńqo1 ;(er1{ 9.6 e1ucetuenśvnz.Ą1,94alu ?9oluopel.ĄA -o1ł 00I euqtzc) iluI00s puuod ezpze|azldeuo1e8 :o8ełrou9oc 1z ślgłą.p9qcorues o1 .n8ol o8ełrurdo3eul93 z,tuo1eppo 1łund .€1unJ s,7,6I oĄIKt ścbzen.g.7 n4uns,{.leu
ts91011121314
1$
t6
17 1S
8in Ralryc sount: Miss;n$: I'dax. Min: Męan: Sld d*v:
2ts1 U
26.'
s.0
15.54* 2.S'l1
Rys.2.7. Histogram dla zmiennej time.to-60 z podsumowującą statystyką
o Dla,,średniego''samochodu (eśli w ogóle taki istnieje)' który potrzebuje dokładnie 15,548 sekund (średniawielkość),aby osiągnąćprgdkość60 mil na godzinę, wartość znormalizowana to: X - min(X) V*_ max(X) - min(X) Zatemmożemy się spodziewać, zewariościblisko środkarozktadu po znormalizowaniu będąblisko 0,5. o Dla mato dynamicznego samochodu, który potrzebĄe f5 sekund (maksymalna wielkość),aby osiągnąćprędkość60 mil na godzinę,wartośćznorma]izowana to: X - min(X) -f 5 : -8 1,0. X* - 8 25 max(X) min(X) Wartośćmaksymalna dla danych po znormalizowaniu wynosi 1' Podsumowuj ąc, znormalizowane wartościbędą nalezeĆdo przedziału od 0 do 1, chyba ze zostanąnapotkanenowe wartościdanych, któreleŻąpoza początkowym przedziałem.
Standaryzacia 2.6.2. Standaryzacja (ang. Z-score standardization), która jest bardzo lozpowszechniona w ana\lziestatystycznej, dzia|apoptzez obliczenie róznicy pomiędzy daną wartościąpo-
re| b|ceztrcpue1s.óurzpo8 .npoqcoures Bu '(qu .punąes e|nqez4od 'fiprł € I Q.o llrrr 69 99oąpórd 9Łu8tlso 97 'onzeut 9t [cezimpue]s od ol .|eruperg €u^\gJ 1se[|euuenuz99or:r-1ii. 99oilułreuo erur|,{zrd \ozer (X)o 'o: -116'3--: -., : . (y)eruperg-y *X 8 t S ' g I- g t g ' g l .óurzpo8eu pur .puru1es re|b|cezt'rcpue1s 99 99o1pórd9Łu8trso.{qe ż89.9IeTu -pupop elnqez4od'ftgq .(e|aru1sl e1q o He1e193ołr 19e|1npoqcotuus..o3elupel9o. 'tuure[n od.|elupergpo ezs|eruurŁs oJ9DI.Ic'ou€^aIalEZ 99otrełr'{1urul?póq fcezt|'Jrlpuz1s 'E6g'7,--
116'z : -. (X)o : , g7s'sl-g (x)erupert-x *x
.óurzpo8uu re| b|cezśrcpuu1s .punąes ołI'(1elnqez4odńrgłą.npoqcollles€IC . IIuI09 99o>1pórd 9tu8trso ńqu 8 (x)p _ .
(Y)eruPsr;- Y
xzt
.19drc9o1młr((x).o) 1se|o; ez!\opmpwlserue1'(qcpozezld t(cluzgr [e1erue,uo1eąsezrd zerce1odblc9ouełrtruperg l e1 .g.Z.s,(U rfcezd-repuels od g9-o1-aru11 feuuerurz u1purer3o1s41
nt
0"n Ins'a/.rr"t tst
pls ./'.ap :{JSsliJ :ullił :xBpj ;&rJ!$sry{ :ł|.ln*3
a&:*g u;g g',X. 0'e
s't
0"t
9'q
a'0
$'8-
*'t-
gf-
a'z-
se-
{ x ł x p| l v }
&gr{}ł-auJ!l
v4-
X - średnie(X)
o (x)
25 - 15,548f.9II
-
Jz ' L t A 1
Zatem wartości,które są wigksze od średniej,po StandalTzacji będą miały wartość dodatnią. Podsumowując,wartościzmiennej po Standafyzacjina|ezązregu|y do przedziałuod -4 do 4, z wartościąśredniąrówną 0. Rysunek 2.8 jest histogramem d|a zmiennej time. to-60, po przeprowadzenil przez Insightful Miner standaryzacji każdej wartościtego po|a. Zauwazmy, ze środekrozkładu znajduje się w punkcie o wartośctzero, a wartości minimalne i maksymalne pokrywają się z wartościami,które obliczyliśmy powyżej.
h ikacii punktówoddalonyc 2.7. Metodynumeryczneidentyf W...,,...|.... Iednąz metod lzycia statystyk do identyfikacji punktów oddalonych jest użycie standaryzacji. Często punkt oddalony może zostaćwykryty, ponieważjest oddalony od średniej o dużo więcej niż 3 odchylenia standardowe,a Zatemwartośćpo standaryzacjijest albo mniejsza niz _3, albo większaniz3, Wartościpól po standaryzacjipozatym zakresem wymagają dalszych badań, aby potwierdzić,ze nie powstaty w wyniku błędudanych lub innych wpływów. Na przykład samochód, który potrzebuje dużo czasu do osiągnięcia prgdkości60 mil na godzinę (25 sekund), ma wartośćpola time-to-60 po standaryzajest większa niż 3 (chociaznie tak bardzo) i dlatego ten cji równą 3,f47. Ta wartość samochód zostałby zidentyfikowany tą metodą jako punkt oddalony. Analityk danych moze zbadaćwaznośćtych danych lub przynajmniej zasugerować,aby samochód został wyregulowany. Niestety, zarówno średnia,jak i odchylenie standardowe,nalezą do wzoru standaryzacji i są raczej wrażliwe na obecnośćpunktów oddalonych. Jeżeli punkt oddalony zostatby dodany do zbioru danych, obie wartości:średniai odchylenie standardowezoStanąprzesadnie zmienioneprzęztę nową wartośćdanych. Zatemprzy wyborze metody do oceny punktów oddalonych nie wydaje się właściweużywanie miar, które Same Są wrazliwe na ich obecnośó. Dlatego analitycy danych rozwinęli bardziej odporne, statystyczne metody wykrywania punktów oddalonych, które same są mniej wrażliwe na ich obecność.Jedną z podstawowych, odpornych metod jest rozstęp międzykwartylowy (ang, interquartile range). Kwartyle zbioru danych dzie|ązbiór danych na cztery części,zktórychkazda zawieraf5%odanych. o Pierwszy h,vartyl6(Ql) to 25. percentyl. o Drugi hllarĘl (Q2) to 50. percertyl. o Trzeci kwarĘl (Q3) to 75. percertyl. Rozstęp międzykwartytovryQRQ) jest miarą zmienności,która jest dużobardziej odpornaliz odchylenie standardowe.IQR jest obliczane jako IQR = Q3 - Ql i może być interpretowanejako środkowe50vo danych, 6Pi"'*,"y
kwartyl jest wartościąnie większą nii' jedna czwarta punktów danych (przyp' ttum')
.I'eJło .q nDtund 9goucoqoB.ĄA'qd.ł\ |eypnq.óuerperu śzcb,rupary.óJBIIutrgq eu 'o8eru Zeq Zv;o urńuopppo ruap1undz, Óuvtpelll I uooo truperg zJIIod .e .u^uol€ p
's
-po ue1ąund u.{upe[ z,nulvlezile z luo:,oluelso qc'tc?|ereuvruzqc'(uupJ9IqZ ZJ91ńls . lll śzc n śzods elde11s.,r.r .1|cząg'tsep1 qc'(uu.todn1 łl91ru1'tpuńse11 pup1'(zld eu :Z.z qcńu ryaqe!'!\ łe! ąą -półqop pzpurYrordalzplqr 'tłrqpu.tl1se['(m1uuz śsglĄ.riceągfse141elu€qcsZJg.ĄA1S'Ł v
óleuue[uz npuplzoJ Z l3sou?,/Y\erelq.{.t oł\osol er9ł1 .'(po1eur'{pełr l ś1e1ez bs eTąe1 .c ;,{polsur lel hepz ts e14el iqc'(uueurz (o8e.rop .du) -Jepuu]S ertre1ńqcpo n1nznol E:uJelrroJEZSopaIu op polelu rzpełrord z eI9ł>I.q a4 ,o1zazld 6ńpo1eu |e1ńpełt bs ar1e1;qc'tuup le1uurluuśzrcn1, ezslatuzcetdzaqleufemqopodop.nurdfeur euzo4so ferzpruqleu poleru zergl>I 'e lsef óttu'(ueprurfcŁl -trIeJq órs uruełrotu|ezop zserlqśn (, op z po]eu IłJeZĄz bJg1>I' t f z.z po urr91uns'(J €Iu 9gouume1śz3 'eJqgJqo od tc9opełr Le|UaZceUz IłJezĄe1pŁlupar9 cgoue.il\z1lqo e1o3 .qc'(uupŁ>1q9rqo tudótsłr LeZJEuzo 99ouB1Y\ '7, pazld ł\9lueIPInlcórd u1p(aruocut.?ue)npoqcoptruperg?gouu'ĄĄ 1.7IIaqąz 7ppuz .qc'(utp qc'(uełro1o8śzlderueuqcduep ricero1ds1e'!1ege aułrń1u8eue't1zoru zsrd6 . I
Pruozc!fl\c'6'z? 't86I fN 'ue{oqoHfepvf 'npq 3utssry,y .g .q .epllT.V .I .U quu ststlouvlzrusltDts.ulqnU Lzl '666r VJ .ocstcue;g u€S .uuuulJnu;1ue8ro1tr,?utut7,yopq n{uot1olndal4 opą,a1ś1ueuo(J
trl
PlnlBl0ll'l'8'Z:,:,:,:: .qc'(uep.tr'(pue4 I ecJoz.ł\e]sord cu.t.r'fu4po ureu t8oruod algla,vp .Ózleu qcfuzc,t1s.Ęąs t qc'tuzcger8 qc'ilYrołre1spod e>11udure|nsoJsuzE elelzpzoJ 1t .96 : (gl)s.I + 08 : (doDg.I { g} |e7ńłtodńuozo1odlse|(q qnl .99 : (0I)9.I _ OL: (uÓl)s.t _ 1} |e7pod'(uozo;od1se|(e l1aze|,Kuo1eppoDlund o>1e|'tuułroąg't1ueprz ńq1ąsoz n1se14lu'!,y1 .0I :0L 08 : uÓI ol.ruru1'fuełr4r-uĄ '{zpórul ecIuZgIt.t.ro1'!re,t4(zpólul dó1szor anlez.68 B 0l .&pórulod 1se|łrg>pu't,te't.ro1odUJe1eZ.08 : g} o1 1'$uecred .sLe,OL: .9Z .n]sel.tg>pu'{zrr ruoIqZ vlp eT,pep1śzldeu Kulz91e7 IÓ ol1Ąuecred .g} |ezń,t.tod (uÓI)s.t o feruur|eu'(zldeuozotrod1set (q qnl I0 fezruod (uÓI)s.t o |euur|eu.(zldeao4otrod1sei (e qezeI u,(uoluppo tuoDlund I qc,(uep9goge16'oct I lse -ndó1seueue.ł\oruUepz Urclez 1se|qc'{uo1uppo^\gD1und uruułr'fu4't/t\ €JeIIu eurodpg
oddalonego i dlaczego. (Pojęcia średniej,mediany i innych statystyk są wyjaśnione w rozdziale 4). c. IJŻywającmetody IQR, potwierdź,czy punkt oddalony jest rzeczywiŚcie punktem oddalonym. 6. Stwórz zbiór zawierającywzrost i wagę sześciorgadzieci, z których tylko jedno jest punktem oddalonym dla jednej ze zmiennych. Następnie zmieńten zbiór tak, aby to dziecko byto punktem oddalonym dla obu zmiennych. 7, uizyj swojego zbioru zćwiczęnia5 i znormalizuj oceny' SprawdŹ, czykazdawartość nalezy do przedziatu od zera do 1. Cwiczenia praktyczne W poniższych ćwiczeniachuzyj zbioru danych churn znajdttjącegosię na stronach internetowychksiążki. 8. Sprawdź' czy sąbrakujące wartościdla którejśze zmiennych. 9. Porównaj po|aarea code (kodregionu) t state (stan).omów widoczne nieprawidło. wości. 10. Użyj wykresów, aby stwierdziÓ wizlalnie, czy są jakieśpunkty oddalone dla pola CustServ Calls (|iczbapołączeńZ centrum obsfugi klienta). 11, PrzekształćaĘbut day minutes Zapomocąnormalizacji min-max. SprawdŹ zapomocą wykresu' czy wszystkie wartościna|eżądoprzedziaŁuod 0 do 1. If. Przeksztatć atrybatnight minutes za pomocą standaryzacji' Korzystając z wykresu, opisz przedziat'wartościpo standaryzacji.
'?ferulsr eplu1ey93o,u qgsf 'n1ec buualulz puu1nqf4e 'Łpólurod yezt.rlliod qcfłrqzou lept |eudó1słratcóturłrzol o 1 .r|cułrresqołrgrolqzpod qc'{'teąelc ó|cuąg,fi uapl o .rure1nq'tr1e śzpÓlus r|ce1er qcńuure|ez.tr eruezpzrrerdso .qcńuep ruoIqZ erualq613z o :eu uro>1,t1quue elenzod yqg 'qc.,{uep[ceztlenztn t (yqg,stsĄouv D|Dpfuop"to1dxa.8ue)qcfuep śzl1eue|eu|'(cero1ds4e90zn Ł1o.trr o1sózc .qcńuup Kzeq |eueuzeru.|eznp Jeqo.Ą\ ?fe1s 'tc'(11uueńp3 erq98ezcz5 .rur,tuup Kzpórul -od qce|cu1erqc,,(uełro1ezco o llotłd tz 1s'(ruod?[eul '{c'(llrcua ezsh\ezelu łBupel 'qc^uzJAJl -eueruderu ^Ą9lselr rcgoąelqo4uoł ł\91se].qc,ilrosezc 'ng8erezs lzt1ellee1pul,t1.tł.1|cu -n/s qc'Łs1sózcteuBIp ezrnlera1q[euzc'$sń]B]s.Ą\ze1odlqł\91Se1 qc,(uu1aIaI^\łsef .r|sar8er eIuBu.ł\oJ qc'(ct|nsrdo łtg4uu'Łctrgdsłr u1pl ]sel . 'J rusel tcoruod ez tfcuuttumaz1leue . .qcńrvrorc9oąe|qcńuuerurz e|p lc1ouzo|ezelr o 1se1 ,X .|ełrouerruo1erłr t|cu1ndodu1p tcolqop.. 5a1 . ..eruułrosedop ix .llce1ndodqcgł\p r|crodord tcluzglelp $el . Z ,qcśuza1ez qorde1p l lsol o .r|cu1ndodqc9^\pqcrupoJ' ścluzgl€Ip l lse] o .rlce1ndodqcg^\pqclupeJg ścluzglalp Z $el . 'rfcupdod llcrodord elp Z $el . 'rlcelndod felupergBIp I tse] . 'rlcelndod felupergelp Z $et . :ze1odtqqc,(ctlndłs€u €Iuu^\o]se1op fpo1eruruf1 łr .ze1odrquluu^\o]selrnpecord qc,{u -zcń1s'$u1s eqzJII euozlllzelu uud$sop [euzc'(1s,!s]S ezJnleJol1 |euzcńsep116 1so| ' (3 ut1 s a 1 stsalo d{q' ?tse)zap dry ,óze1odlą'tqtre.tro1se1 M9$a1 śq1śzn za\ o?ep1p | ru1uńr rvr az łelearu WVpn 1ń1r1uueqpud .n>Iu'tJ -Kzld ultl ^\ nł€ I zpn eruazs|eruurz eł?^lopo'ĄAods '/Y\. 1e1doeąz,furpoderĘulso ^,(zc .tueluezpłt€rds ńuułrosere|ulez 1se||ełro1r9luołiluoJelołro]eredo ez,ślllzgtrezpep1tzld e1q.rur'(uuerulzKzpÓmlod rurelce1erz n4zblmz łr crzpłrurds'(qrlercqc e:r:l14,tlotld o ze1 -odq u11q 9er.u ?n! ?8oul 'tc'tlTeuz qc'{uep rfcero1dsąenure1qordBIIIBISeDIo sezcpod
.t.e ...:,ffi qcńuep e4|euu eufńcelo;dsło P zolodlq oluemolsol
(vgt)qcńuep e4pueeu[ńcelolds
zbiotudanych 3.2.Poznawanie W::':'-'. Proste (lub nie tak proste) wykresy, rzlty i tabele częStoodkrywają ważnerelacje, które mogą wskazać interesującypodzbiór danych do dalszych badań. W rozdzia|e 3 uzyjemy eksploracyjnych metod, aby poznać zbiór danych churn [1] z' UCI Repository of Machine Learning Databases w University of California w Irvinel. Zbiór danychjest również dostępny na internetowych stronach książki. W tym rozdzia\e zaczniemy uzywać oprogramowaniaClementine do eksploracji danych pochodzących z SPSS, Inc. Aby zacząć,najprościejjestprzyjrzeć się wartościompól dla kilku rekordów. Rysunek 3.1 przedstawia wynik użyciaoplogramowania Clementine w trybie tablicy dla zbioru danych churn, pokazując aĘbuty wartościdla pierwszych 10 rekordów. Angielski termin churn jest używany, aby wskazać klienta, który rezygnuje z korzystania z usług jednej firmy na ruecz innej fitmy. Zbiót danych składa się z f0 zmiennych informujących o 3333 klientach,tazem ze wskazaniem, czy zrezygnowali z usługfirmy. Zmienne są następujące: o Stan (State)- zmienna jakościowa,50 stanów i Dystrykt Kolumbia. C CZas wspótpracy (Account Length) . czas posiadania konta: zmienna catkowita, jak długokonto było aktywne. o Kod (Area Code) - kod obszaru: zmienna jakościowa. o Telefon (Phone) - numer telefonu: zasadniczo zastępujeID klienta. o Plan międzynarodowy(Intl Plan) - czy klient przystąplt do ,,planu międzynarodowego'': zmienna jakościowadwudzielna: tak lub nie. o Poczta gtosowa (VMait Plan) - czy klient przystąpiłdo ,,planupoczty głosowej'': zmienna jakościowadwudzielna: tak lub nie. o Liczba wiadomości(VMail Message) -|iczba wiadomościw poczcie gtosowej: zmienna całkowita. o Dzień minuĘ (Day Mins) - catkowita|iczba minut w dzień: zmtennarzeczywistoliczbowa,|lczbaminut, które klient zlzył'w ciągu dnia. o Dzień rozmowy (Day Calls) -IiczbapoŁączefiw dzie(l: zmienna całkowita. o Dzień optata (Day Charge) - całkowtta opŁataza rozmowy w dzień: zmienna rzeczywistoliczbowa, prawdopodobnie oparta na dwóch poprzednich zmiennych. o Wieczór minuĘ (Eve Mins) - całkowita|iczba minut wieczorem: zmienna rzeczywistoliczbowa, |iczba minut' które klient zlzy|' wieczorem' zmienna całkowita. o Wieczór rozmowy (Eve Calls) -|iczbapo|ączeilwieczorem: całkowitaoptata Zarozmowy wieczorem: zmieno Wieczór optata (Eve Charge) narzeczywistoliczbowa, prawdopodobnie oparta na dwóch poprzednich zmiennych. o Noc minuĘ (Night Mins) - catkowita Iiczba minut w nocy: zmiennarzeczywistoliczbowa,Itczbaminut, które klient nlzy|w ciągu nocy. o Noc rozmowy (Nisht Calls) -|iczbapoł'ączeńw nocy: zmienna całkowita. o Noc optata (Night Charge) - całkowita optata Za tozmowy w nocy: zmienna rzeczywistoliczbowa, prawdopodobnie oparta na dwóch poprzednich zmiennych. 1Polskawersjazbiorudanychchumzna1dljesięnastronieinternetowejWW\,V.spss.p1/1arose/
.ull^\ołłuc euue|Wz :qc'{^\opoJ3u Kzpólul uezcb1od eqZcII pu| tmoruzoł aAĄopoJ.zuKzp)l1y o Gno) . e.tłoporu u'Ł pÓlll eluez c -Łpd uu 1uel1nerglą .]nuru v,qzc:4.e./Y\oqz3Tlo]slntśzcezl enuelafz :ełroporuuńzp trśznz -lluleluazcb1od eu 1nur.ueqzc\ull^\ołł€c - (sut77y ,Qnutruauopoltlu(zp)l,tl . 1tu1) .I.€ .s.{u wnqc qcśuepezlo\qz,Ąe,ĄĄopJo{eJ 91 qcńzsłr'rerde1p19d rc9o1re16
16
0t0 il
r.s 06 96 I|| 8r1' ,{, 6S ttl I sBt
069i I oft 6 !sr'6 !196 !6 r'6 !t! s a?8.8 0It.1 !9! !t
B0g&9u !0s '6t gaq!9, 0[a s te 0[t e[: 00l.ss t tB! 66t ł0}'|t' n09 1,$l. frsł''gl
0 0 ! ' s x 5 0 1 8* I rr08.9tMI 6t 008'tit i l g l .I t | 0 ar | r ! ] ć a8 r llrl6EBI .!9/'s t n0E.s8t łLu,t., 00E.s6| ilgŁ,s '!l E0s Is l. 00f t00! rga t;e c I 00l.Fta 08i.9 I
LLL, 08 !6
srlI
tB l-
tc,
0r"t sBf
)ipl aiu alu 1sł alu ó!u 9!U €lu łsl łel
1l: 0 0 !t ! 0 0 8 9I ,{,
00il'tć. Btrgtgg i0l t0 l!B9'€ t |i n!9'flć iliĆ.8?t .l's ł!f frłt.,t, 0 0 s ' c Et
} l't f,tL 0rl-
ngr"'lł oLr'/; ilt0!t
ł& ta bt Es &6 I r r-
0$s.[' 0t[ tt 069gt 1160 lt 0€ s .lr Bll"8l
łrtns
,,ł"
łs} !:/'|.s-sx 9r' 't ' ł!u 6 |j!-!eg B!' J.' I łBl l|0s.6zŁ9|.f 1!l ;lu E6E6-99[0 r! !Xl} i ę ll ' . B 8 . t . 6 s 0 | 9s ' I )iBl 9z9s-0sg91"! 91. łs} 6666.91esi]' ns a!r.rl{6 r-8St I It lt t a ' u t 6 u - t / l iI t t t ' l I a|u l99}-z8tE'! 8.l
o Międzynarodowe optata (Intl Charge) - catkowita opłataZa rozmowy w potączeniach międzynarodowych: zmiennarzeczywistoliczbowa' prawdopodobnie oparta na dwóch poprzednich zmiennych. o Liczba rozmów z BoK (CustServ Calls) -|iczbapołącze(l z biurem obsługiklienta: zmiennacałkowita.
i:
zmiennymi zeskore|owanymi 3.3.Postępowanie
Powinno się unikać dostarczania skorelowanych zmiennych do eksploracji danych i modeli StatyStyczny ch. W najlep szym r azie, uzy cłeskorelowanych zmiennych wyolbrzymi jakąśczęśćdanych, w najgorszym - uzycie skorelowanych zmiennych spowoduje, że model będzie niestabilny i do niepewne wyniki. Zbtór danychzawieratrzy zmienne:minuty, rozmowy i optata, opis danych wskazu1e,ze zmienna optata możebyć funkcją minut t rozmów, co skutkuje tym. żete Zmienne są skorelowane.Badamy to za pomocą macierzy wykresów pokazanejna rysunku 3.2, który jest macterzą wykresów rozrzutn dla zbioru zmiennych numerycznych. Macierz wykresów powstataptzy tlzyciu popularnego pakietu statystycznegoMinitab.
8
, { 3 * ś , 8 { 33 & & Ą * ,
$
LA* 2*U 3*A 4*il
IE 6 e
s
|ń }ł # I
4**
-ź *nn
'& Q
&
200
ł5
a
h
r
1fi0
'* r
U
Ąą
sxi*ń łcxmov'ły
&xień rninuty
*zi*n opłxta
&il
Rys.3.2. Macierz wykresów zmiennych
*
3*
ź** t$&
-uenuz lJIIEIol.qzśzpólull}9ouzoleze|UBpeqzeJoqc'ilrorc9oąufqcduuelurz .ĄAgp?pIZoJ elu -ezp.uerds.qcduzc,'(rerunu qcńuuerruz.troruur8olsrqulcervrresqo.qc,(uuarurzewpeqz 1se| qc'(uup śzqeuuleul.{cero1dslaetuezpu^\oldendop ł\gpo1(odqc'furołre1spodz ul'tupe1
qcńfltolcgo1e! qcńuu9!lt|z0!uepeg.'.0 ..:.:::. 'eu1uur,{ldoeluleqolSetuezbttvtzot?VelEUZ leruzce]n4sń13otubpóq qcńuep rfcero1ds1e'{u1ńro8p eułredo3e1e1p,elllepez n-rerur'(t e|c1nper rcsouu'.(zcl4cĄ Łu|e1o; .qcńuuerurz qcńupóqz ó|ceururqe zazld 91 op 1se[ Ęe1uz .Icso1Y\olu1119ds't,r feu1oqo1erłr.pe;ą 0Z Z ^\gqqśĄeÓqzct1'tru9rlńzs|eruurzze1o?e:r-1o -śzldeu,atulzpetzp łr r|sar8er |eu1orąo1enrnpołrod z n1ru,{łreu|gdseru9ep 'tq'Q8oul eu .r|ce1ero4qc'! un'fi1po Zeq em?.ł\olepou -zc,!s'Ęe1s qc'(uep elepou t efcero1ds1e ezseu śzesop l1zsazld 'tu9'(q'(p8 ez ,ttl:ilzai,łtna7.np4do auoponuKzp)lu.t l t4tądo cou,n1n1do .ulc,{.n1po JozJalłĄ euuenuz ,(ru9qełroururqef.t.r o3e1e1p r euqopod qcń.t.roporeu ś1ezeąn -Kzpótlll r '(cou.tt .uleJozoetł\^AoIuzoJ qc'(ctzcń1op 1Y\9łIupepls elp €ruupeg .(sul111 Koq) t]nutru yatp bauarulz ct|er.te1sozl (a3nq3 Koą) oto4do9latp buuallnz cblnulurqe eru ,(su!ru 1ełIqJe 1|el '(urqo6.qc.(uuerurz qcgmp qct{1zbupe|cu.tr.oulu11e'it.r,(ugruurłrod Koq) Knutru yalfp Z Bue^\oleJołsaIuI€epI 5a| (afuoq3 Knq) nptrdo yaźp zvu\e|uod .tłrorur1olupepl .I 9louzolaz eu elnza1słr oc olup€plop 3u,,!\9J7sa|4 9'ou€.ĄĄ €.€ n1uns'{.leu ez .iwzennaz.eup n8trc łr ń,totuzor ó1nurruez Mglluel 71 Kcbtezclpu .|eł{ -śnz śpś,n1lepou elu]o]sl o1 1sol ,,.(su!WKoq) {łnulul głatp Kzel LrO ?epop €19000.0 Buł\gJ :sat (afunq3 Knq) o1n4do,la!zp,, :r|sor8erBIII?u./Y\oJ eIuB.it\o'BZSo o>p[ó|c>1ung Ó1 glzeil'n ^{tuezour ,Ńngqve1uuz(g,g >1eunsńr)qB1TuIWelcer:1ed.t rlser8ar etzpÓzrcu ez bcotuod eZ .yevp n qcś1śznz 1nuru '(qzcr1Łłroruq b!c>1uqb]sord 1se[erup n8trc łr ,(.tłoruzorez e1e1doe7,,o1eu ucŁ|nzeąs,t ,(a?"rcq3tnq) rlrc4do9łalzpe (sutpy{oq) tłnu -ryt rurńuuerurz,{zpórulod€ł\olu{ uuIBepIelerutsr .'tuor1srp@rupz lrapp ?9ouzo|vz .(euuzeąodetu .qu1rur141 n1e1qedz) lcgouza1ez nqo €Ip L0.0 : .l e|ce1ero1rue.{seq'(lvro?a1b|ezpntłqod eru )pupef .rurulod WKl śzp -órurod n,ouze|vz lueluolu1sl ctfru1tnąs.(e1u1do eruqopod t) łrgurzor 99o3nłpeuzcb1Óls v1vzsnllnz alzpÓq.łtgtuzor Kqzcq lualsoJz.i!\eZ zellrl,'az ,9enelzpods órs ea7oal Zet:irelu -od .eułrrzpo] órs ueu e!epĄ6 .nlo4do Kuou'tzol uatp tzpllulod zeł qn1Kuou,t 9łatzp I .órs e|zp'{łrel5 -zot yażp 1Knutru 9tatp un(uuewn śzpótulodnezbtnz łBlu]st'tqu .g.g.s,dg q€lr.ulntrn1e11ed z sut1ltr Kng tnapó18złr afuoq3(rg qc'{uuerurz e1pr|ser8er 1n:',fu6 *0.001 = {tp€ib5.x ooo'o 000.0
*0'00T = bs-x
r.t'vv99BT T00000'0 69' e T'l'd000. 0 J
Jiao3 NS
o o o o tr ' 0 } e' 9 0 0 0 . 0 feoJ
usPq xec "';i;;.':s:
,98zao"0 = $ sur6 deg ?r,!€?sl'oJ
.:{o?3rp3Jd
;";"::x3 j;:
sulw dr6 sns;a^gsjpl|3ńe6 :s1sĄsuvuolssajssx
%
sil,:1 8,fi*
Lirzehność
3n1S 3f3
H Prawoa
Rys. 3.4. Porównanie na wykresie słupkowym proporcji rezygnacji z uwzględnieniem informacji o przystąpieniu do,,planu migdzynarodowego"
nych. Z drugiej Strony,naszym ogólnym celem projektu eksploracji danych jako catości zfirmy (nietylkoetapuEDA)jestStworzeniemodelutypówklientów,którzy mogąodejść Dzisiejsze (zrezygnować zkorzystania z usługnaszej firmy na rzecztlstug innej firmy). pakiety oprogramowania pozwalajązapoznać się ze zmiennymi podczas sprawdzania. które zmienne są powiąZaneZę zmienną churn. W ten sposób mozna eksplorować dane, mając na uwadze nasz ogólny cel. Zaczniemy od rozwazenia zmiennych jakościowych. Na przykładrysunek 3.4 przedstawiaporównanie proporcji osób, które zrezygnowały (ciemnoszare),do osób, które nle zrezygnowaty (asnoszare), wśródklientów' którzy przystąpili do ,,planumigdzynarodowego''(,,tak'',9,69voklientów), i tych, którzy nie przystąpili(,,nie'',90,3lvo klientów ). Wykres, wskazuje nato, ze większy odsetekosób, które przystąpiły do ,'planu międzynarodowego'', rezygnlje, jednak patrząc na ten wy. kres, nie moznabyć tego pewnym. Aby zwiększyć kontrast i lepiej zobaczyć, czy proporcje slę r6znią, mozemy Za pomocą oprogramowania (w tym przypadku Clementine) przeskalować słupki,tak by mia. ły ten sam rozmiar dla każdejkategorii. Na rysunku 3.5 widzimy wykres z tą samąinformacją co na rysunku 3.4, pozatym, ze stupek dla kategorii tak zostałrozciągnięty do tej samejdtugościco słupekdla kategoriinie'To pozwalanam lepiej rozr1znić,czy procent rezygnacjijest różny w obu kategoriach. Niewątpliwie jest bardziej prawdopodobne ze ci,którzy przystąpili do,'planu międzynarodowego'',zrezygnująz korzystania z ustug firmy' niż ci,którzy nie przystąpili do tego planu. Wykresy informują nas, że osoby, które przystąpiłydo ,,planu międzynarodowego'', mają częściejtendencjg do rezygnacji, ale wykresy nie określająilościowo tej relacji. Aby określićilościowo relację pomigdzy przystąpieniem do ,,planu międzynarodowego,, arezygnacjąz usług firmy, możemy uzyć tabe|ibzyioutej, ponieważ obie zmienne są jakościowe'Rysunek 3.6 przedstawiatabelgkrzyzową programuClementine.Zauwazmy' że suma Ltczb z pierwszej kolumny daje nam całkowitą|iczbę osób, które nie przystąpiłydo ,,planu międzynarodowego''z rysunku 3.4, f664 + 346 : 3010; po-
lunq) zeJo {uopoltlutzp)lw uo\d qcluuerusz enoztzlĄe1equ1 .9.5 .s.(g
1 a?J€|Uatttox; pb|6{Ąń i:-ł{!3ffit' .l .}90,9Z[:łBlsBltłł.|r.|C ! =0Ąs!a|Qop8dopsĄe]d=JF B3blnłEJq ruĄ łA)t,ł 3AuualuJfbnAoEńa}| dfea|nąeł'.E B> le latwz'.Dupłl'J
a&J ,,pBenopoJ€ u ńZp ob;,II : (v99T, oĄIślZ nlueu,,!\oJod .oł3'ĄĄou3KZQIł ,tn, + 9vę)/9vę, -órur nuu1d..op '(pdĘs.{zrderglą ,99so o6l,,7l, : (98I + LtDlLt] a4,Kul7elrine7 .o1u,tirou3,(zeu qcśuuperneqre|.,!\ ''!lg}uolplob; ,vI: (098Z + E8ń lę,8v Kzceuz o1 i,(1ełrou8tzalz elu oJopl .lumqoso 098Z : 98I + n9gz Z nlueu.tlgJod ^\ : ś1enou8śza;z el91Ą.q9so eJeIMez qcfuup I1IqZ ula1łZ.f1e't.rou3 + € 8 ' LEI 9vt -tzeu oJ9DI .qgso lqzcq eIeIfu\EZZSJoI,ĄA r8rup .{p3 sezcpod ,ś1elrlLou?śzalz aIU a]glĄ .qgso óqzcq aIłIlriEZ ńzs.t.:er6 .ńuurn1o>1 9.g ru1uns'fteu ZSJeI,t.r, fe1?rupulp ]se[ eluqop łr9>1dqslc9o3n1p|eu,łrrg.r o ru,{,uo1dn1serseq'(.t.reu ..o8ełroporeu .'{zpórru nuu1d..op nruerdĘs,{zrdo lfcururo;ur rueruerupó18z.tłnz:fceu1śzel ric;odo;d elu?u,tr9Jod.s.€ . s.{u
LT
ur,ffi osób, które nie przystąpiłydo ,,planumiędzynarodowego''.Jest trzy razy bardziej prawdopodobne, że klienci przystępujący do ,,planu międzynarodowego'' zrezygrulją,niz ze zrezygnljąci,którzy do tego planu nie przystąpili. Badanie EDA dla ,,planumiędzynarodowego'' pokazato, ze: 1' Być możepowinniśmyzbadać,dlaczegoprzystapieniedo,,planu międzynarodowego'' skłaniaklientów do opuszczenia firmy! 2. Powinniśmy się spodziewać, ze nieza|eznie od użytego algorytmu eksploracji danych do prognozowania zmiennej churn, model najprawdopodobniej będzie badał, czy klient przystąpiłdo ,,planumiędzynarodowego'',czy nie. Przejdźmyteraz do ',planu poczty głosowej''.Rysunek 3.7 przedstawia na wykresie słupków, zebardziej prawdopodobnajest rezygnacja słupkowymz wyrównaną długością tych, którzy nie przystąpili do ,,planu poczty głosowej''.(Liczby na wykresie odnoszą się do proporcji i licznościtych, którzy przystąpili lub też nie przystąpili do planu, bez odwoływaniasię do rezygnacji). Znowl możemy określićilościowoto odkrycie Zapomocątabe|it'rzyzowej, takiej jak na rysunku 3.8. Po pierwsze 84f + 80 : 9ff klientów przystąpiłodo ,,planupoczty głosowej'',podczas gdy 2008 + 403 : f4I1 nie przystąpiło.Następnieobliczymy, ze 403lf4II : 16,7va tych,któtzy nie przystąpili do ,,planupoczty głosowej'',Zrezygnowało,w porównaniuz80l9f2:8,,Ivo klientóW ktlrzy przystąpilido ,,planupoczty głosowej''. Badanie EDA dla ,,planu poczty głosowej''pokazato, ze 1. Być moze powinniśmydalej ulepszać ,,planpoczty gtosowej'' lub ułatwiaćklientom przystąpieniedo niego, ponieważjestnaruędziemzwiększającym lojalnośćklientów. 2. Powinniśmy się spodziewać, ze nteza|eznieod użytego algorytmu eksploracji danych do prognozowania zmiennej churn, model najprawdopodobniejbędziebadał', czy klient przystąpit do ,,planu poczty głosowej'', czy nie, Jednak jesteśmytego mniej pewni niż w przypadku zmiennej plan międzynarodowy.
Rys. 3.7. Iest bardziej prawdopodobne, ze zrezygnują osoby, które nie przystąpiły do ,,planu poczty gtosowej"
nuu1d..op oą1Ą rld?tsńzrd śzl914,qcś1zlu.(08IZ: z1E+ 8t8I) ..o3emopoJeu'(zpótur nuu1do8eupuz op łtdbsśzld elu śzry1n.'t.r9]uerp1 |ecól.u oznp 1se[a7,,śul?vnnv7 ...o3ervropoleut|zpórun nue1d.. op ITIdb1s'ŁJ d Kzryln.A\9]uelplsl,ł\s]s ...o3ełtopoJuu'tzpórur -pezld eluo4s [ełre1 od fłro4dntrs ser1'{łr ,(p? sezcpod nue1d.. op ZłIUM1JpdĘsdzrd eru ,{zrgtą.rvrgluerp1 er,t.re1spezrd eluołs |ełrerdod.{łroądntrs seq.{16 .(ou=utl14 lpruA)..|e,uosotr8 K1zcodnue1d..op rlrd?ls'Łrd aru śzryla 'trrgiuep1u1pqcń.t.r .oqdn1s.t.rgse'r1,{.t.r óred er,ue1spazld6,ęąeunsfl pep1izldeN.uJnq) feuuerruzuepó18złr rur't.tł,orc9o1uInu'(uuerurz 'fupónuod afcn1alauĄołunJarynAĄp 1vpvqzeIungl'(ruezoyq nue1d..op nruerdĘs,{zrdo r|ceruro;ur ..o3er'topo.reu.(zpórur 3n1pełrure1erzpodz ..[e'l.roso1d ńlzcod nuu1d..zeq.ugluelp1BIp ułnqc |auueltaz ełro>1dn1s fser4.{16.6.'.s'(u
;----*.:-*-.^^;
|
:
;
; |ou'uqd
tłslt'l
rę!*łB|d
r'l''l
{q{'ugld
||łx'{
i&s{lc.''
l.l{'}
'c.i ]X *' -=
.:
I ,'
tu"rnqg
unqJ zelo ouosotr3o1zcodqcśuualutzettozśzl4e1equ; .g.g .s,{5
{!ń'| p|'rt[El
vlłr|l
p|'
tlnf t Pittr*m,
Vitrtl
PltniYlal
Rys. 3.10. Wykresy stupkowe zmiennej churn dIaklientów z ,,planempoczty głosowej''z podziałemwedług informacji o przystąpieniu do,,planu międzynarodowego''
Rys. 3.11. Wykres sieci potwierdza wcześniejszeodkrycia
(130 + 101 : f3l), Wazniejsze jest to, ze wśródklientóW którzy nte przystąpilido ,,planu poczty głosowej'', |iczba rezygnacji jest wigksza, gdy klienci przystąpilido ,,planu międzynarodowego''00Ilf3I : 44vo), niz gdy nie przystąpili (3021fr80: I4Vo).
pnl teuueruurz Icgouu1r\ '{z4 o>11ń1 Ł5 .zI.€ .s.{u
qnl t|ndóts,{łrnuol8oJ '(po1'tn1eJ oZ .ÓIs e|epzt.tt.(ecs|erurctzpózczso śqe,śpś,l |e1rrrrr .lluJoJll?) .ĄĄ -olg op ołI'{1)gI.€ ru1unsdreu |anozśzlT lleqą ^\ouezeąod łe| 5leupol IIB Zserru I3uaIpI,(cs,tzsłrez .,(1ezeąsrrt 'tpro1er ńqńp8 .ep1,(łrzeruq 'tqo1'(qelp .71.g .0Is .80' nąuns'tt eu oueze1od 'ĄĄgpJołeJ 1e!.guro;I1e;1łr fzr1 erł]s,{zs.t I sI' .l[cez11e4o1 qcq]s'Łs'tr IJSouu1Y\ euzgl E oą1ń1ererłrezpoy e1oda4,tĄe! suu e[n8ń-lłu1 feu -zcgel?oe? 8n1pervr B]uelpl e[ru1g'(sup1 zełreruod.ełrolc9o>1e[ euueII]Jzo>1e| eruułro1ąer1 zeuilł'gt c(qazout'fr;fc uremrez euueuJJzzercoqJ 'qcfuup eznorqzu'(uceqo M pox eI .e1od -od.ołrope11ńzld,ńlnzenzog .pcsndo qc.{uepeluezczs(zc du1e,{zs|eru1ezcl.l'ergłą qn1'(pro>1er arrro1prłrerdelu qnl euł\Izpezvrd.qpoIIuBseZcqc'tuup uz||Eueuuf'(curo1dsąg
.9.8 .;.:;.,; PlcńilpoopV0] oluPlsńzJołńM ;9dqcńmołppneJdolu 'utc,{-rqpo ezs larusozJ,r,rez sEUezp rer,rqodo1' t1enou? tlzeu etu śtzcodnuu1d..ńzcepersod1uecord,fus1ór.truu cbfnzu1słr.uzsqru81se[ śzl9lĄ...[eł\osotr3 zs|tlt = u"łnqcuatrzÓ]^z 101 _ nnosotr3o1zcodecbzcbtrvpÓnery.zs\ol = uJnq) | npłto.td .euĘ uJnIp z rule1zón lDJ = nu.osotr?rlŻcod ecbzcbtr(aIuII)elzpółre.rąńrufeułr9ro4 -ueuelJ tcouod ez śue4sśzn,ulnqcZeIo Dfu|osołS npcod ,KuopoltluKzp)lul ur4d ruośu -ue[uz ńzpórurod '{uu,tł,orer1s '(lttorcersserąń.tlurłre1spezrd11.g >1euns'ft.n3yo{ł[ .eł;lve!.{zc...[ełtoso1? ś1zcod nue1d..op ńpd?1s'(zldKzc.o3e1po oIuZeIeZeIu,b,|nu8(zel |alcgÓzc...o3e.tnopoJ3u'(zpórul nu31d..op Ąld?1s'(zrd ergpl .'(qos6 .rurń.tł.orc9o1e| ,śulTunne7 rur.,{uuerurz '&pólruod eruełrf1urzppo o8auure|uzt^ elul o:llu oZ .(obg : nu?1d.. Otgltil rpdt1s.{zrderu ńp3 vp,@b6t, : e6l9t) ..o3e.ttoporeu'Łpórur op łrdtls'Łrd lcue114ńp3 .uzs1órłrlsel l[ceu8'(Zer eqzc|I...[ełtoso18Ktzcod nue1d..op pdĘs'Łrd śzl91nłr9lue1ą p9J'ł\ .ąeupe|nnouz.(Z6 : 9€ + 99) 'tuu1deqo b|uul śzl -9DI .^A9]ueIH4Ia .(0€8 : vn + 98D ..le'trosotr8ś1zcoduu1d..oą1'$ b|eul śzl91>1,n9ł -ue114iecór.,r.r oznp 1sel .@a{._ uo14 pnu1)..|ełroso18 ńlzcod nue1d..op qrdĘs.{zrd 'Łr -9DI .ł\g]uelp1ep qc'Qnoądqs łrgsaq'tłr órud enre1spezfi 91.ę ąeuns'ft .erudó1se51
Rys. 3.13. Anomalia: trzy wartościzmiennej kod występlljąwe wszystkich 50 stanach
bardziej równomiernie we wszystkich stanach i w DysĘkcie Kolumbia. Jest mozliwe, Ze eksperci bgdąpotrafili wytłumaczyĆ znaczenietych danych, ale jest równiez mozliwe, żepole po prostu zauttetabłędnedane. Dlatego tez' nie powinniśmy ufać tej zmiennej' moze nawet nie powinniśmy uwzględniać tego pola jako danych wejściowychw modelu eksploracji danych w następnym etapie.Z drugtejstrony,jest możliwe, ze to pole Stanjest btędne.Tak czy owak, wymagane jest porozumienie się z osobą obeznanąz losami danych lub z ekspertem, przedwtączeniem tych zmiennych do modelu eksploracji danych.
*:::';' numerycznych zmiennych 3.6.Badanie Następnie zajmiemy się badaniem zmiennych numerycznych ilościowych. Zaczniemy od miar numerycznego podsumowania, takich jak wartościminimalna i maksymalna; mediana,moda;miary zmienności,takie jak odchylenie miary środka,takie jak średnia, standardowe'Rysunek 3.I4 przedstawia te miary podsumowujące dla kilku zmiennych numerycznych. Widzimy, naprzykJad, że minimalna wartośćzmiennej czas wspótpracy wynosi jeden miesiąc, a maksymalna wartośćto f43 miesiące,a średniai mediana sązb|tzone i równe okoto 101 miesigcy, co jest oznaką symetrii. Zalwazmy, że kilka zmiennych wykazuje cechy symetrii, w tym wszystkie zmienne określającewykorzystane minuty, |iczbę po|'ączeńi opłaty.
.(euuza1od eru) ruru1etrdo z euezb,lt,tz ,{urgqÓunsn e1oder4s'tzs,t.t, .fez'fuvrod >tu|ul'ttod.equ1s'!ńq eqls'tzs^\ I Icsouze1ezerr11s'(zs.tr nuered '(urgr1zp.t.rerd5 .I : , |al9p1 ,t]nuuu t,uotuq Łu1eepl Łuot't.rguro,b,tcgouze1ez 1se[ 1.(zc !łalzp 1np4do .(ąru,t.t.o>11ńzn ó1) (>1aau) aqetrs 9tatp Kzplllllblcgouze1ez ezod 9ll'eqo ezour ó|cu>1g{sep1 .tru'(,t.lolc'op Łs rc9ouza1ezał11sńzsntaz ,śul7e'tł,ne7 oąe| euuze>1od rtu.Ęe1s rtu'(uuertuz -ozod rru1ą]sśzstw z oto4doLłalzpI Xog f ilgruzoJ oqzc7 qcśuuolurzlłc9.ĄĄp €Ip Ic'ouZeI -ez e|nze>1od g1.g ąeunsfg .lu'(uuenuz lusśuzct|nurnu'{zpómrod tc9ouze1ezcvpnulds qcńu,to'osueszeq ,(rutsnurze1 o3e1e1q.'t.r9>1ru'{.t.r op bcbzpenold nlaporu e| 99oupqe1seru - urńzsro8|uułr .qcńuul ue]Zsoł qc.{uup -npo.t.rods n1ped'Łrd 99Ózc gbąetrru'tzrq1o'{',r.r qc'{uuerurzqc'(ue.t.ro1eJołs u'fusde1|eu,t.t, eluu.Ą\olącez,|alusezc,t ńu9qeruuods,t.r1e1 .9ćr.natzp Bu,ĄA9J 31ue{ł l8n1sqo uIeJnIqz yezcbtrod Kqzct1eu1eru'{s1uur oJ .?9ou9ołso.t.rerd Łułred eu e|nze1słr ?'ołJB^\Ze|Uh\gluzprer,t.l1od (€ 9 9.I) e1uelplr8ntrsqoIueJnIqz yazcbtrodeqZ)IIe|U oJ .(0.I) € u elpetu ztu ezsąól,trt.lsa! ...|e,toso18 -per5 .[ezń,,r.rod ńurgqerzpl'ĄĄ oc '$zcod nue1d.. op etrrdb1s,Łrd łrg1uerp e,t.ro1od ,o3e1z elcslnśzco o1uąru'{16.[e,t.r'osotr3 atczcod 1vrIJ'oIuopuI,ĄA ?Iu olu 1ń91 71ule1uule7 -uelpl €1Y\ołodforuur|eu.{zldez .cb|nze4s.tloolez eIJl^oI5e| n;otuopmeĄDqzJlI BIp €uslp .eW.XotI z óĄ.oruzoJ DqfJryI IJ,oI.t'topD1AL Dqzul ol ru]eur.(sqcec acb|nze1't'ueluu1o4
qcń.tłorc9o1r qc'(uueruz n{11łelp pl.(ls,,(tBts euzc,(luurn5 .'I.€
L
1ctt.1,
euelpaH
a$0plępuBł$ a!ua'Atł3p* j
'$'e9{ , !n i ,utw1 |ł ps -vl-t - -.-- --- ^^^^^- ^^- "-" -y!t?BJ', ą'{is&*lg 1'
t0 I
ló*i n,
.sfu
PrtElÓepl
BAĄnp.l€ l ]ueł; ł1a*g,uap,ryl1 słEbll
'99 r
lł
-
}oa z#,r|j]?*J€ q zr|",l''i::j
atiip*i'rj ioett--_-----' a.ĄĄ0pjepuBł5 e|il8lj!ĘJp* ;}$l
B
!r!?.s ls!0* {s / i
ltx] ,
*XIłń|li,,* * ł{".x'\eijJf*'l Is]f{
,
] . s ł eif i | . .. ulFł , I B6.tc -E l u'r,rr.rih*ls .
a.ż{ap*l*uj;pt|iĄl . ..- - ..*-*.*-.'-.'-.'.*!tgłd0 Puetgafi l ó,iAopJBp|]elsa!usllli3po ] słgltl ] u!lĄ
81Up6JS; l **--*---.,ffist*ełt ;
ńł/totuf ol tsMopoleilńfpeIlĄ .-
p8ff*
e ueip irq a'J'l{0p,lgpuplsó!!a'*Lł}pc 'sii*y{ ź , !
u r x !,
. I
:,At{rr )1 .-*.*__--,_--.-.**'._***-:)y-?_P}Bi, pićt$li*ts'.tr ' |i'l.'.fi ĄnuIrug*Ąap*]*lj&s*
l.lóffi
Rys.3.1'5. Korelacja dla zmiennych liczba rozmów z BoK i dzień optata
Nastgpnieprzejdźmydograficznej analizynaszychZmiennychilościowych.Pokazemy trzy przyŁJady histogramów dla zmiennej liczba rozmów z BoK' które są lzyteczne do wyrobienia sobie ogólnego pojęcia o rozkŁadzie zmiennych ilościowych. Rysunek 3.16 jest histogramem |iczby potączeń z biurem obstugi klienta i wskazuje, ze rozkład jest prawoskośny, z modą równą jednemu potączeniu. Jednak ten wykres nie pokazuje zadnej relacji ze zmienną churn. Dlatego musimy spojrzeć na rysunek 3 .I7 , któty jest tym Samym histogramem,ale tym tazem z naŁozoną informacją o zmiennej churn, Rysunek 3'17 wskazuje, Ze procentrezygnacji mozebyó większy dla większej Liczby połączęńzbilremobsługi klienta, ale trudnojest jednoznacznie to stwierdzić.DIategotezprzejdźmy do znormalizowanego histogramu, w którym
.s'(u \cetcevBśzero ?fceuuoJul buozo1euz Xog z &IgluzoJoqzuy |auuerulze1ptuer3o1s41.lI.[
.9I.€ .s'(u Xog z lĄ9utzotoqzcl1tauuawzu1purur3o1s41
?3ąęę7Bs
Rys. 3.18. Znormalizowany histogram dla zmiennej liczba rozmów z BoK znałozonąinformacją o rezygnacjach
trhBrn
ffi rał* @ l*0
1ś*
rr*xrta
?0a
s.ień eislly
Rys. 3.19. Klienci z duzą1iczbąwykorzystanych minut w ciągu dnia częśclejrezygnujq
[ceu?śzal op ó|cuepue1b1ewle|eanIueJoZJeI^\1nururqc'{uąsdzro>1f.trbqzcqbznp z I3ueIT) .0z.€ .sdu
.erup -nua.(ZeJ naŁrcnb,|elneanzoJ oznp.J9DI.{qosootez*elp:;i:#r:,il|,il#
.
.,{ueJoeup|ceds cńzvnzol '{urgruurłrodo1,OOz Kzcoląezld 1nururqcńue1s.{zro1ń.tł eqzc\ {eZeI .eluolp1o8ep -zu4zezld .1 urup n8?rc ^\ qc'tuu1s,(zro>1'itr óqzcr1 lnullu )Izpell elu?o4so '{ur9ruur.tł,o4 ze1o3e1e1q.{ceuBśzalop ó|cuepue1 |etcsózc 3|uu erup n8trc ,t uoJale1zazld ecb|el.Ą\BluzoJ oznp ,(qoso ez ,atnze>1snt,1nu -!ul ,talzp |euuerruzruer8o1srq.'(rrułrozr1eurrouz a7,.,{urrzprłt.61.g 1eunsd.rcŁtupeg .€luelpl ńn1sqo IuoJnIqZ ełUelplyazcb1 ,{ceu1śzel -od Óqzcl1trepuq elzpóq eruqopodop.turd uruułrńprłrezrd qc.{u op 1epour -ep r|curo1ds1enrufi.lo81e o?e!,{znpo el:uze|ezal:u .7 ez ,)e,lrlreIzpods órs ,{ur9ruul,trro4 .B]uaIIł 99ou1e|o1 9ewśząn Kqe .aue,tolego c'(q '(uur,t.rodK1ÓqcezplpoJ' eu19aazczs.oluoJela]UrcezĄ,{zr4 .u1ue41 r8n1sqoIueJnIq Z B]uelp{ o8epzu1 yezcb1od óqzcl1 ?VpeG alu?o4so ńru9ruur,t.ro4.1 eT'.otrezeąod elualpl r8n1sqoIueJnIqzuezcb,1odśqzcqelp VCa eTllepeg .tzel p fa1uul|uuoc e]uelpl r8n1sqoeJnlq op {uo.Ą\Zp śzry!Ą.Icuelpl7p (efąolso ld 99ózc uuuretc)fceu?Kzel ła]espo śzszlualuvvlś'nŁlnze1fłr ,t|zel ę |ez,|n|euoc e1ue4r1t8qs -qo BJnIqop ĘIuo^\Zpśzlgl1.rcueq;q..{usefzere11se[19z16 .1s3łuołI ?'oJtso 9.{zsde1od ,(qu .e1óru8tlczol ś1elsoz'$t4o1sord !11.g n4unsńr eu ąu|eru€s ar{ą eIupBPIop?s 8I.' rr>pns'(reulfceu?śzeJI'uoDI€Jqe rurelceu8'tzal Kzpltanodelcrodord e7,,ślll?ennez,1I.t, n1uns'(reu eueza1od>1e|.99oąorazs r 99o>1os'{łr tures b1e1uur(eurun1o1)lblolsord [pvzĄ t!,;
Rys. 3.21. Brak związku ze zmienną churn ztliennych dzień rozmowy' wieczór rozmowy, noc rozmowy i mi ędzynarodowe rozmowy
Rys. 3.22. Brak związku ze zmienną churn zmiennych noc minuty, międzynarodowe minuĘ, czas wspótpracy i liczba wiadomości
.śuelłiolące7.ulnqc |auuarulz e1p,{u1o1s1 .nlepolu 'tr ,(1órururo4.lnulw po śuza1e7 .,(uu.toqcezele,uJnq) ?uuerurz ez nązletnz o8e1sr.tłfzcoBIu eIN trre,uoqcuz eIE ,unqc tuuerurz az n4zbtllLz o3e1sr,tr'(zco€tu eIN
.nlepou .nuna ',t f1órururo4 po Kuze1e7 ',(ue,toqcez ele,ulrulc bvuelulz az nĄzb|^z o8e1srrrrdzco €ru eIN .'(uełroqcez e|e .uJnqJ buue1ulz az nĄzhllllrz o8e1sr,uńzco ulu eIN
.nlepou . łr .Ąórururo4 nurul po tuzep7 .fuu,toqcez eIE ,uJnlp tuusrurz az n4zhtmz o8e1srłrfzco €ru eIN ..{ue.toqce7 .ulnqc tauualulz e1p ńu1o1sr9'(q ezop1 'nlepolu .Jnu\a 't.r d1Órurruo4 po śuza1e7 'duerrroqcuz ele 'utnql ?uueruz ez nybrwz o8elsr,rfzco eru erN
. lue t,.trolące7. ulnqc tauuelwz e1p ńu1o1s1 '.{ue.toqcuz eIe ,unlp buuerruz az nnzblmz o3e1sr.t.{zco €ru eIN
. śuenotące7.ulru1c tauaatulz u1p,(u1o1s1
.Ńlemoące7, unqc |auuatllz e1p,{u1o1s1 .nlepou łr 'Ęórururo4 .q1 1qf1sqn5 .nlepou'ł.r .Qórurruo4.'(mo1prłrerder5 .duu.toqcez ,uJnq) e|E tuuerurz ez n>IzŁIllrzo8e1srłrdzco BIIIeIN rlepou .Ąl\f1óluruo4 .f,łro1pralerder51
Xog z AĄ9uLzoJDqb17 optrdo anopotoużp)t1tg tuowz ot auop otou tzp I tlttg śłnu1ru auop oltlu Kzplt 141 o1n1doco1tr Kuotazot co1tr Ęnutul co111 DLDłdol9zcał|Ą tuoulzol J9balAĄ {putw tqzcaqyy o1tądo1lacq tuotuzot gtatq {1nulu't9tatą lJrolilopDlh Dqbl1 onosotrSo1zco4 {uopotoufzp)rul uDId uoJaIaJ
pox Kcotd4gdsu soz3
arułzfizm7 qcfu|'(cero1dsąe9ńqpo qcf,rrrosezcqc'fiopellle1y\olunspod.I.' BIoqBI
.qcńuueluz lłcf1 el.ĄA?lspodeu e|ceu.roJul euuoJ ei,(qpo -oIfcvz,{ulgruurrrrod |e1uue15 qJfrlep r|curo1dsąeIepou aZ |JBMeIZpodsóIS śanalzpóqeIU,1z,t I Iz.€ ł\9łunS,(JZ rul -'(uuerurze uJnq) buuauslz 'Łpórulod nĄZbIMz o n>IeJquu órs c?|ererd6 łouułsezJd .IłcEłEIzpaZId qc'$ 'Ą plq9Jd 99ouzcł Ł1eu u1parcrol.Ą\Zpo ^\9Iu3J3 -o1S[łqJfJ9DIoIuIc9óZc |ełrurdnfceu?tfza.I Bł1espo ?'ouuenuz eznq.uJnq) |auuerurzo I|mIuJoJuIluetuezoł?uZ D,oruopvlw DqzJ7 zero bDJą9dsu sozc ,K1nutulaĄĄopoJuuKzp -)tuł,{7nutu't)ou |ĄJśaUeIIJlz ńuer8o1stq €I'l\€lspezń zz.E łeunsfu .u"mLp|euuerurzo I[cBIuJoJuIlualue?ołBuz tfuoruzoJahopotDu((zp)truzelo Knouzol cou,tvĄo\azoJJ9zJaIl^ ,tnotuzol yażp :l^gulzol b,qzcl1 qcśuezblnz z qc,{uuarurz IĄJłIłłZJ '(urer8o1srqer.Ą\els -paznd IZ.€ łaunsfu .qJfu€p ezlolqz ł\ ilufuuenuz |:ulfiłv7sozod v wnqc buuewz śzp -órurod t|Ązblloz oBe1srrvrfzco€Iu olu ez ,btnze4od 77.t Zen Iz.g Hunsft nJgo{ ^11 .e|ndłs'&vrołsIł\B|Zol az,b,zplculr}oderu qJńuep rlcuro1dsąeelepou pt9dop ł\gIuZoJqcńuJozcel^\op olu9oupo yacelez il8e]ełs lugluB'i!\ołruuJoJ Z ÓTs ńureu'Łr]s.Ą{ zeł o3e7e|q.e[eru1sr ópłrerdeu ołsl.Ą\s|Zol oZ ,llzpleltls lc9o^Ąqd1bzvr qc'Łs1óur zeq 'tu -e?ou eru .eIseDI^,{\ eu elu.{pe[órs c?|urerdoł€upof .IueJozcelł\]nulru uelu3ts{ZJoł,{ł\ ulfzs4óurr Z ^\glualpl {ceu?Kzal op ó|cuepue1bazceuzelu e|nzeąod 0Z.€ łounsfd .KJnulu yażp bunelnnz łepeq erupÓq {ceu? śzal€IIIe1Y\^p -Ił\ezJdop qc^uept|curo1ds1elepou 'tłrocqo4 zseuez.9e.$elzpods óls ńtugtuul't.ro4.g
wać te Zmienne jako zmienne wejściowedo modeli eksploracji danych. Zachowujemy te zmienne, ponieważmożliwe jest istnienie zutiązków d|aposzczególnych podzbiorów rekordów i mogą one być zaangazowanew związl
relacji wielowymiarowych 3.7.Badanie W::',,, Następnie przejdziemy do badania możliwych wielowymiarowych związków zmiennych ilościowychze zmiennąchurn zapomocą dwu- i trójwymiarowych wykresów rozrzutu.
Rys. 3.23. Wykres rozIz1ltudla zmiennej liczba rozmów z BoK wzg|ędem zmiennej dzień minuty
.qc{uueluz t fce1erblmle|ezn euełropo,t.ods .(?uuerurz?zcu.{peiod eu npó18złr az |euualulz nruełtoro1ds1e) o1 1SoI llcero1ds1e fełr -orerur^&toupo! op óls ńursquzcluer8o '(p3 .uuu.t.ro4gń1ueprz ?e]soz e18oruolu ^\9]uelpl edru? e1aT',Kul7ennez.eup n8brc łr ]nurruurerue1s.(zro>1fłl urĄeiu Z€Jo E]uaIpIr8ntrsqo IueJnIqz yazcbtrodhqzcl1tznp órs btnz,t'lep1erclpśzlg14.lrr9luerp1 e|n1ueze.rder nse"q,{łr lcgÓzc ieur98 |ełre1łr [cuu?śzal €^lsyelqopodop't.rerd o8aznp JBZsqo .nseqńłr ngÓzc iełru'ld^\J€Zsqo uapa| ezczsa| r nser4'(u lcgózc [eur93 [ezYre1 łr [ceu?Kzel B.ĄĘsgelqop -odopłrurdo8eznp J€Zsqo uu e|nzuąsrvrńr9D1.ru1uns Kl vu Kuezu>1od 1elzpod '{urzełrzog .(ezsłrreldo>1e[eueruerurńryr ezs,tł,ez uuul,t.rod( rso z euUaIUIzinser1'{'t.r e1n1fił^r 9'{q 99ou -[e1o>1 ecerłrpo eru.t.rerdodeueu4ueurelJ alue,ĄĄo{uur8ordo eT ,Kulzentnez)&nutru yatp urepó18złrXog z M9ruzoJ oqzcq |euualnJJznlnzlzol ureseq.,it.t'$e| Ez.E >1eunsńg {ceu8lzal o r|cuuro;ur lueluezołeu z Xog f M9ruzot oqzcq |euuerlllztuepó1Bzat .'z.' .sdu t1nututlgzcatu leuuerurzurepó18złrfunuul ytatp leuuerurz ęIp n1nzlzo ser1,{,tł,(tto"lunu'{,t.r[9r1
W ogólności, klienci z większąliczbąpotączeń z biurem obsługi klienta częściej rezygnlją,jak dowiedzieliśmysię wcześniejz analizy jednowymiarowej. Jednak rysunek3.f3 pokazuje, że ci klienci z dlzą|iczbąpo|ączeń' z biurem obstugi klienta, którzy wykorzysĘ ąrównież dużo minut w ciągu dnia, są w pewien sposób ,,chronieni'' przed rezygnacją.Klienci z gómej prawej częśctwykresuwykazują mniejszy odsetek rcZygna. cjtniŻ ci z lewej górnej częściwykresu. Porównajmy to z drugim obszarem w prawej części(po prawej stronie linii prostej). Tutaj, większy odsetek rezygnacji występuje dla tych, którzy mĄą dlŻe wykorzystanie minut w ciągu dnia, nieza|eznieod liczby połączeńz biurem obsługiklienta, co podkre. ślaniemal pionowa linia podziału.Innymi słowy,ta grupa klientów z dlzym prawdopodobieństwem rezygnacjijest tą Samągrupą klientów, która zosta|azidentyfikowana na jednowymiarowymhistogramiena rysunku 3.19. Czasem, trójwymiarowe wykresy toztzutu mogą być równleŻ pomocne. Rysunek 3.f4 jestprzyh'tademwykresu zmiennej dzień minuty wzglgdem wieczór minuĘ wzg|ędemliczba rozmów zBoK zna|ozenieminformacji o zmiennej churn. Paski przewijania nabrzegach okna służądo obracania wykresu, tak aby punkty mogły zostać zbadane w środowiskutrójwymiarowym.
Rys. 3.25. Wybranie interesującegopodzbioru rękordów do dalszych badań
.uo13ufzse6 .uo8erg .uru.loJr1eyarzp8 -o8e]e>I op euusld.,furd fq'{p1soz eiułreg I ełSBIV 'uot3al buuelwz tzuou łr euolueluJez )e7soz evoul u01Se,tĄotcsoąu|aUU}IU]Z.atYost(ul alupaq ,aDlsTu:S?pIqJeZł op vuozc|Iez ezoul {]nutruyaLzp pep1ńzrde51 Euue:ru]z ?e]soz .śzl1vue op eupo8op Łs eJgDIśSBpI J9IqZ '{upŁszorłr qc,{,t.rorc9o1uI qn1qc.{.t.rorc9o1r qcńu -Ua|UIZó|cu>1g.{sep Ez)eUZo (?ulpuoq euu1.{1odszellfu\gl ?uluulq .?ue) e|cezt}eąs,(q
..'...? elcezĄel1sńo.6.E .łnunuqcńuąs,{zro>1'{łr '{qzcq [ezs1ór.t.r n1pedfzrd ,ĄĄ uec olu€ T ruqo zazldod ezou g,{q .,{urrg?n1sn z evm1sśzlo>1 z qurvrou8 Kzel elu '(qu >1ut..ĄAgtuelpl qcńcŁ|ur.truru -ZoJ oTnp €ruolo^\op€Z nruorzod erueru.,(zr]nnIeJ ,Ą\rr8e1er1snlołrzor eruezułrzor 1se| euecelez'ze1 o3e1e1q'qc,(uupazrcrqz ru.{truc 1y\^\gluorplfceuaizeteqzcrl BrupeJtlruu,zs -ąillł Kzel śz4nluazqq[zld n n1 śzaleqzcl1.e|nu3izel.tu3Jozcel^1 r etup n3 1se|ricuu8 -?tc .trr oluels'kro1'fuvr o6ęy peuod e7 .óls etnze4g .97.ę eznpb|eu śzrylĄ.,r.r9tue1p1 Jnultrr n4uns.,fueu fuezeąod lse| .ĄAgpJołeJ nrotqzpod o3e1 e1p u"ł.nqc|euueruIzpPpIZou a|nu8fzer tueJoZJeI.Ąt erup n8Łrc ,ĄAlnuruI qc,(ue1s.{zro1,{'tł Łqzc11tznp z ,ĄegluelPlobtv peuod.9z.€
.s'(u
.(.ĄĄ9]e)IoIaI.ĄĄ
oIcłulZ$Io ZeIu'ĄÓ.oJ e1e.qc'{u1b1ołsord o>11.Ę aru .Ą\oJeZSqo etueretq'(łr uu r,t.t,oąru.t.roą1ńzn .lcgÓzc eme1o,ł.lzod '{qo1ńq bpo1eur bzsde1) lełrerd .ĄA tuezsgo o3eu1t>1o1sold z Kp |eu:93 .yupeq qcńzs1epop qJI eruerqń,t.t, -JołeJ ńursqurqń,ł.r r.{p1undecb|nserslut tecb|uzc |e1n1 -euzvz D[tuBJ elu€ , ^t\osfruu € u I,ĄĄo eut1ueurelJ elu€ . ĄA.oluur8ordg IIu,ĄA.o>11Kzne1enzod ol '(ure?our eIV .ezs1ótłrJsefurerozcer,ł.\ r óo.ĄA.olc9oll 9II9eDIo ł3i elup n8ttc .ĄĄ ruerue1s'{zro1,(.t.r ur,{znp Z ,ĄĄg]ue1pl fceu?Kzal o'ĄĄlsyelqopodopłrerd lnulru az,Kullzpln g7.g quns'{r u5 .lerupup1op ,(rorqzpode19epeqz'{qeąet .qcńuepruorqzpod o8ec|nsere1ur r|ceąg,{1uepIop ('t.r9urer3o1sqqnD n7nzIzoI .t.rgserą,{.t.r 9Kzn t|uezoyn
uPpeq .8.8 qcńzslep op qcńuep nJo|qzpod o0ecblnselolu! olugtolqńn11
rii Pacyfik, i tak dalej. Ściśle mówiąc, dyskretyzacja jest w równym stopniu czynnością przygotowującą co eksplorującą' Są różne strategiedyskretyzacji zmiennych ilościowych.Jednym z podejśćjest ustanowienie klas równej szerokości,analogicznie do jednakowej szerokościhistogramów. Inna metoda dązy do wyrównania Liczby rekordów w każdej klasie. Mozna roz:waiyć jeszcze inną strategię,która próbuje podzielrić zbiór danych na identyfikowalne grupy rekordów, które będą przyjmowały podobne wartościdla zmiennej celu.
Rys. 3.27. Procent rezygtacji klientów z mat'ą(na górze) l, dużą(na dole) liczbą pot'ączeńz biurem obsługi klienta
Na przykład, przypomnijmy sobie rysunek 3.18, gdzie widzieliśmy,że klienci z mniejszą niz cztery |iczbą połączeń'z biurem obsługi klienta wykazywali mniejszy odsetek rezygnacji niż klienci, którzy dzwonili cztery razy Llb więcej do biura obstugi klienta. Dlatego tez mozemy zdyskretyzować zmienną liczba rozmów z BoK w dwie tJasy mata i duża.Rysunek 3.27 pokazuje, że procentrczygnacji klientów, dla których |iczba po|ączeń z biurem obstugi klienta zostil'a zaklasyfikowana jako mata, wynosi Il,f5flo, podczas gdy odsetek rezygnacji klientów, dla których |tczba połączeńzbitl-
'9007, .uałoqoH.ecuel3sJe1ul-'(ell^\ .Sppotr[pua SpowaIĄJ ?uturyyDpQ,esone11lelueotzl IN '866I VJ .eutAq.ecuetc5re1nduro3pIIBuoI]BtInoJuI .?IIuoJIIeJ ń1rsrenrun Jo 1ueue1rudeq Jo .Tulftł. . . .1v]1v11v\/ .seseq ń'rotrtsodoET}il/uJeeTul-/npa Tcn ScT / : d?fl{ ,1agopq uffiq7,z:rlry.I.J -e1zq SururueT aurqcerygo ,(rollsoded ,e{BIg .-I .J IJn
elnlplolt'l't t'g
trl ',,,,,,,
.1Y\głuelp| olzeq M{ceu?śzel ,|qzcl1uruezs|eruruznlec ,tł ót8eterls 9zpe.trordłl e1fioru uuirg ńqe e[IIJoJ ./Y\ eueł\ołnuloJs o.łuuł ?8oru eluezazqsods e; .qc,(uup Ąe7,vecalez 9dq Kztleue feul'(ceroldsle elln,ry\osolsv,zeuuerels zeztd o>11,t1 ,turrg 8nlsn z rur,bbfnuS,tzer IIuBlueIp[z ląc(lrczblnz lrtrglnqfiqe]Bluel 8u eluazaz4sods ecbzceuz,(ru9rrcrqez.o1 otu .IW .ał\ouoJneuIcels Kzc au|śzt|cepezliazlp .qc,(uuplfcero1ds1enu4,{ro31e ąe| o8eqe1 o8eupez azczselfiuslleł\osols€Z elu qcduep ruoIqZ o3e1 op '(rod op ez,tanzu,rtne7 ie1 'n,oruopD\AĄ ,Kcnld\odsu ,{]nulułaAĄ DqzJry SDz) ,KuotuzoJauĄopoluutzpry ,Kłł'ou,tzol ,Kuoulzol -opolouKzp)tu,t,t1nutru cou cou JgzJaMĄ ,(łtotuzol yanp rł]J'śuue[IJJz ez ulnqc |auuetuz 1r\gązblłrzqc,$srłrt|zco ell eIN . .IcuoPI qe1sozodztu b,|nu?śzel |elcgózc .e1uer14 ńn1sqo IueJnIqz yezcb1odoznp Łluru Ivevp nb,|elnvunoJ ołBIut|zlgtĄ.I3uelp4 o .IcueTpI qe1sozod ztu b,|nu?śze.l|e1c9 .uleJozcel^\l ulup n8blc nb,|eltwulzoJ -ózc eu1orqfzr1 o1o>1o oznp KzrytĄ.Icuel1y o .rcuatlłt1u1sozod zwb,|nu?tzel|elcglzc.tuaJozoatłl r erup n8trc mb|eltpanzoJ oznp izrglĄ.tcuet1y o .IJueIpt zlu |elcgÓzc eIqoDIoJe]Zcpeuod Ł|nu8 11u1sozod -śzel,e1ualg € n 1sqo eJnlq op I|Iuol^zpez Kzel tfia1zc|e1uul|euoc śzlgłą.rcuer1yo ,b,|nu?izal |evpezl..|ełrosotr3 Ązcod nue1d..op rpdĘsńzrd śzlg14.tcuel1y o ,b|nu?Kzal[elcgózc..o3ełropoleu'fupórur nue1d..opqldt1sńzrd ńzlgtĄ.tcuel1y o :uJnqJ feuuarurzecbzc,llop eruezez4sodg .qc'(uepllcero1ds4enleporu ru'(pzeą łr erc'tzn qcr eu ec?|upłrzod .eqe1sbs ru'tc?insrdo ru,{uuerurztant|tre1sozod 'tzpórur :n9o:uzelłZ. 'yerusu['(,neruals'tzn nwz3 op euozczsndo JelSoZ fuurznod r eułrerdodelub,sun15 e1odqnyl pox e|od . 'euozczsndo ?e$oz,(uurrnod I lnuilu ruerue1sńzrołśnzqct|aezhnz1gdpo euze|ez bs rure1u1do z auuzblmze1od 1.J1e1z3 o .qc'tuep śn1eue|eu|'tcero1dsąe bcollodez '(ur9qeuo>1op qc'(rgp1,ulnqc qcńuep eznolqzo Elue?ezłSodsezszu ńruzervrzog
.,;;ffi OluPm0unsp0d'0t'e .'(zsąórłrelu]oĄoJełZc puuod 1se[1'fuc ,ob69,Ig rsouńłr ,oznp o>1e|euełro>1g,(su11ezełełsoz BtueIP[r8n1sqoruer
3..|2.Ówlczenia wry.* 1. opisz możliwe konsekwencje zostawienia skorelowanych zmiennych w modelu. a. Jak możemy określić,czy istnieje korelacja między zmiennymi? b. Jakie kroki możemy podjąć,by naprawić tę sytuację?Wymyśljakieśnowe sposoby radzenia sobię ze skorelowanymi zmiennymi, poza metodami opisanymi w książce. c. W jaki sposób możemy zbadać za|eznościpomiędzyzmiennymi jakościowymi? 2. Dlakazdej z nastgpującychmetod opisu określ,czy moze zostać zastosowana do danych jakościowych,ilościowychczy do obu. a. Wykresy słupkowe. b. Histogramy. c. Podsumowania statystyczne. d. Tabele krzyiowe. e. AnalizazaleŻności. f' Wykresy rozrzvtn (dwu- i trójwymiarowe). g. Wykresy sieci. h. Dyskretyzacja. 3. D|aczegona|ezy przeprowadzić eksploracyjnąanaLtzędanych?D|aczego nie powinniśmypo prostu przejśćbezpośredniodo etapu modelowaniai zacząó stosowaćpotężneoprogramowanieeksploracji danych? 4. Stwórz fikcyjny zbiór danych (mogą to być tylko atrybuty bez rekordów) z parą niepoprawnych atrybutów' opisz jak EDA możewykryó tę nieprawidłowość. 5. opisz torzyścii wady używania znormalizowanych histogramów. Czy powinniśmy tiedykotwiek używać znormalizowanych histogramów bez przedstawienia ich bez normalizacji? Dlaczego nie? 6' opisz, jak wykresy rozrzutll mogą odkryó wzorce w dwóch wymiarach' które są niewidoczne dla jednowymiarowej EDA. 7, opiszkorzyści i wady trzechmetod dyskretyzacji opisanych w tekście.Która metoda wymaga małoingerencji człowieka? Która zmetodwymaga ludzkiego nadzora? Któraz metod mogłaby zostaćlzyta, aby zmy|ićfudzi? Ćwiczenia praktyczne W poniższych ćwiczeniach użyj zbioru danych adult znajdującegosię na stronach internetowych książk3.Zmiennącelu jest income (dochód), celem jest klasyfikacja dochodu na podstawie wartościinnych zmiennych. 8. Które zmienne sąjakościowe,a które ilościowe? 9. IJzywając oprogramowania,sporządź tab\icepierwszych 10 rekordów ze zbiora danych, w celu poznania tego zbioru. 10. Sprawdź,czy jakieśzmienne są skorelowane? 11. Dla kazdej zmiennej jakościowejzbuduj wykres sfupkowy tej zmiennej zna|oze. niem informacji o zmiennej celu. Znormalizuj, jeżeli jest to konieczne. a. omów związki,jeżeli takie są, każdej ztych zmiennych ze zmiennącehl.
.nuodeJ oI{IIJoJ^\ I}ezilM? z ea7,EMe|ozrg|nurnspod .IZ 0z I 6I Yg1g'€ I c,(DIpo ŁZsIIoł\ópo1eru bl9t71 .acruzoJ ^\9luo .nlru^{łt[eułr9ro4 .|euuerurzop (99ouzcq 3u^\9JI 99ołoJezs eułrgr) l|cuz'Ęer4s'(p'(po1eure1u1sozoder,trp|nso1seZ.6I el:uezął\9op óls 9erup6 '0(, .ln]ueulołs .IIuBs€pI ńzpórulod ecluzgr r sep1'tł't1d.tr Ja./Y\oZII3IuIuWz ^qv.łe] o1 qgn ZebL 9śzs|eruuz .(uztlst Z n ez |e1sśzloąs)su1qqc'(uozrołr1s łr'Qdłr łe't.toze)Is 9enozl1ellś$I€ uz '(qu .łul qgIZ.qc'(uzc'fteunu ol qcńuuerurz az |aupa| op Ótcezśta.qs'(p inso1se7 '6r .)epeq [e1epopezrrerg]ą .qc'tuep azro|qz 'ĄĄ^\gpJołeJ 'ftorqzpod ectlnsere]ur [nąg'(1uaplz.qce1rufłr qcńłrosuzcqc'$op eu órs cb|ereldo ' 8 I 'PIIUAIY\ eulolsl elo.ts łrguo .rłnzlzol ser1'(t.rvpbzlods qc'{łrorcso1lqcfuuerurz ńred |epzeą e1q ' L l 6ce.trocurd'(urerzpóq tu'figtł Z .nlopou 'tmopnq op e1ńzn Łlle1soz euuonuz alo1n,zsezczsndtśzldł€I .q .n1ectuuerurz ez qcśuuarulzqcś1z enlel l1eze|\nzblnz Mo:uIO.e |epqe4.ts .euqez4od01 |eu lse| {e?e| ,|nzl1uul:ou7'aułocut -ueIIuZo l|ceuuo;ur rueruezołuuz .|ałrorc9o1r |euuerurz|apqeąu1pruer8o1srq|npnqz , 9 1 . |ałrorc9op |euuerruz |epqeą€Ip a^\opJepuuls .ópour .óuerpeur.brupels ZcIIqo ' s I elue1fqcpo zen bu1eulśSłeul I Łu1erururur99o$ełr .?IqoilyĄUz eu?olu oc zelo ,bs 01 oJ9DIl qc'{uupeznlqz łr u1odeu.turdoderubs śzc.yqg ctfnso:s |epeq7 'vl 'BrsADIpo alołrs łr9ru6 .ó|ceuuogure1enśze4azldezrqop '(q€ 5[ą [94soq 'qc,('torcgoąef 9ers ,u1enzod oJ €u olu€ł\oruer8ordo e!9'ror 'El qcduuerurz elp IJoIs serr1ńrYr |npnqz łe?et .I{ruA.ĄA aulolsl alołrs łlgrug .bnozl|zl-4 ó1equ1|npnqz qc'{zvrolc9oąe| qc'{uuerruz ś;r"dtapze4E|Q .ZI ćcezrrocerdńurelzp -óq ul'{rgp1peu .nlapou 'furtopnqop e1fzn bue]soz euue[uz e.l-oq .zsqg,(Iu .q {€f
doszacowania statystyczne PodeiŚcia i przewidywania
z danych wiedzy danychw Odkrywaniu eksploracji 4.1.ładania W:..;.';,: W rozdzia]e 1 przedstawiliśmysześćzadań eksploracji danych: o Opis. o Szacowanie (estymacja). o Przewidywanie (predykcja). o Klasyfikacja. o Grupowanie. o odkrywanie reguł. W zadaniu opisu analitycy próbują zna|eźósposoby na przedstawienie wzorców i trendów znĄÓljących się w danych. opis wzorców i trendów częStosugerujemożliwe wyjaśnieniatych wzorców i trendów, jak również mozliwe propozycje zmiany strategii. Zadanie opisu możebyć wykonane sprawnie zapomocąeksploracyjnej analizy danych, jak widzieliśmy w rozdziaIe 3. Metody eksploracji danych, które dobrze wykonują zadanie opisu, to regułyasocjacyjne i modele drzew decyzyjnych. Tabela 4.I przedstawia, w którym rczdziale książki możemy przeczytać o którym z zadań eksploracji danych. Thbela 4.1. Zadania eksploracji danych w Odkrywaniuwiedzy z danych
Opis
r ozdzial! 3 : Eksploracyj na analtza danych
Szacowanie Przewidywanie
rozdzia!4: Podejściastatystyczne do szacowania i przewidywania rozdzia!.4: Podejściastatystyczne do szacowania i przewidywania
Klasyfikacja
tozdzia| 5: Algorytm k.nĄblizszych sąsiadów rozóztał, 6..Drze;wa decyzyjne rozdział 7: Sieci nelrronowe
Grupowanie
rozdział 8: Grupowanie hierarchiczne i metoda t-średnich rozdzial 9: Sieci Kohonena
odkrywanie reguł
rozdziat l0: Regułyasocjacyjne
: u |acbzcąln Du,mS|)sopll^ cb,|enśzn't99,I : o1e[ euep ł\g1ueIPI lsai 1 EEEE .1.7 n4uns,fi eu -qgrd |e1€Ip €1uelpl ńn1sqo IuoJnIqz yezcbtrodt|qzcl1ulupeJ9 99oue1Y\ almze4odeuzcńts'$t1s€IueAolunspod tuuu elunadez euĘueuelJ erue.tourer8ordg .g e1 .evpzoJ łr o8euepeq .urnqJ qc'{uup ruoIqZ eZ Xog z AĄouuzorDqnq |euuerurz łopoJ' tze1elzp? .Iuoluu.łro3uzs lue1Y\oseJe1urez ,,(urse1sa| az ,pup1śzld eu,tuszgry7.lnqgńblcg ...IcsoJJ€1Y\ o..S.o .ołIeI^\ u qcrrps'tzs,t.r e óulnsoo eZceUZo (..eru€ ł \otunS.o ere1r1eącer8 $e| .Bul8ts ,u/xś ure11eznp) f, o)p| erezlrlqo (b1serą zx) 1ss|r 3 arzp8 { oąe|euezc .aluezce|Jzoactlndólseu .{ru7pu,t.rord16 .1ąq9rdrerulzor -uuzo 1se[r1q9rderuper9 9'ouu^Ą zazld Kun1alzplepd I3'ou3,Ą\erł1s.{zsłr ńruefnruns.brupels?ve|euz'(qy .tuuemrz zezld qc.{uz.,r.rour['(zrd rcsopurvrbuzciteuĄś:r-Łruper91se||euuerurz(unau .8ue) u1uper5 'e1Ąuu'tł1t e1'$uecredts uruezotrod,trerurrurupep1'{zr4.|ewielwz .u1u e1'Ęs'{.lep1eruqc €u€p 'Łe1 rso eu elzp8.tfnzeąs,tr eJ9DI.ge^lounspod qc,&tł,orc9op .e4opdJelu uleplpedśzldulśu1g?ezczsbs o1pors f,relw .epou Ieu€Ipolu .eruperso1uą .por9 '(rurureuuą'$ods ielcgózc|e51.B{poJ9 lraItuuz|eupe|tcotuodez śuozrcrul.feuuetulz |euep ąepor, t?e| elzp8 .ureruułr'(plłrezrdIuu^\oseJeJurez fur9e1se|ez ,Klllz91u7 .qcńłrorc9o1r 19dyełrounspod ?courod ez aluun,tplmezldI eluelłlocezse,ĄĄoJ .qcńuup -urur.{rvroupel '(urg'(qqercqc srudÓ1se51 śzt1eue, |eulfcuro1dqe tpo1eru 9uuo>1ńłr |e.tłosrdo rfceurro;uróqcor1,{ursqerqezzero qc'(uupuruełro1o8,{zrd r qc'(uep ulre:nilnzolz .śurcuzelu ezJqop eruqopodopmurd .qc'(uupr9tqz '{uolłru1s 'tde1e'{ul9rluuo>1.{16 o3er911 -pazld u]eu łEłsoZ.qcńrmpticero1dsąe órs ecŁfnurlez '{qoso uu {s| olqols uu furzrf9d5
..|':. po!ńpoto luńmou !c$olÓldzot! PłpoJ$fuBltu:gmotu tltl'0.t :..'. 'qc.{c?fnsrdoqi'(uuenuz rueJorqze nlec tu -UaIIIfZ.{zpórulod fuułro1epour avp?,blrrolurur'(uo1er,t ó|sar8arńru 1se[ołrouq 4azbll.liz .rurń.torcgo1tturńuuenllz uluo.Ą\p'(zpórruod -I^lgluo ncgoł 11 4azbllrrz1se|.(uupzqarzp8 .|ełrorur1 r|ser8er|e1sord'tpo1eur?e7ewzol '(urarzpóqerudó1su51.IcgouJnntrevpazldlbllt. .Łuuerurztupef ory'(1 -op1und e|ceur'tlse ?inruleqo '(po1eur e1 łt^\tłJ|euep .t btnn1else ar9q .1|c1'tperdpo1eurl feuzc'fis,t1e1s l|ceu.&so .qc'{.trolenuńłroupelpo1euJ€Iuel.ĄĄg{uo po '(ruaruzce7 ,KcbtndĄseu nłEIzpZoJ o?a1 v|n7.|euzcfts't]ąs ńzr1erre z qct1llu 1se| -dsezcez .uruułr'r(prłrezrd po1eu r urrrełrocuzs qcńu['(c'(pur1 t qc'(uqcezs nod |alzpleq z oJgDIoIuńutłrguro aIeVpZoI ul& ł\ .n>Iel^l puuod po eu€p r1e.t.roro1dsąe ruzcń1sń]e]sńc .qc'(uup l|cero1dsąeeluepe,zBz ene?ewnts eruervr,(prnazldI elu€^\ocezs -,{111euu IIeZef
P!uemńplmozJd l Pluelltocpzs opouzc/usĄpls P!39!op od .z.v
.:::.::
.eusezb,ltytzor qct '{po1eurI eIluapazeu€I'ĄAulspezrdts qgsods t1e| rvr.cqzs 'tu193oo>1e| |ezcer ele .yepez 1evpod ńuzce]elso one| elrc?ezr1sod9'(q euult.rodap rv €Iaqel ze1 o?elr'1q.vepez r qc'{uupricero1ds1epolelu órs eruezopu e?np eu ułr'Ęd.troc ,ewpez o8eupelop oą1ń1auozcruur8oŁs eru qcńuup r|curo1ds4e'tpo1eruerc9r't.r'tzcg
Rys. 4.1. Zbiorcza statystyka dla zmiennej liczba roanów z BoK
i liczebnośćze Statystyki,możemy sprau/dzić,Ze
t:
I* n
- 5209: r.563. 3333
Dla zmiennych, które nie są bardzo skośne,średnianie jest zbyt daleko od środka zmiennej. Jednak przybardzo skośnychdanych, średniastaje się mniej reprezentacyjna dla środkazmiennej. Również średniajest wrażliwa na obecnośćpunktów oddalonych. Z tych powodów, analitycy czasami wolą pracować z innymi miarami środka,takimi jak mediana (ang. median), zdeflniowana jako wartośćśrodkowegopola, gdy wartościpola są ułozone w porządku rosnącym. Mediana jest odporna na obecnośćpunktów oddalonych.Inni analitycy wolą używaćmody (ang. mode),kt1rajest najczęściej występującą wartościąw danych. Moda może być używana zarówno w przypadku zmiennych ilościowych'jak i jakościowych,ale nie zawsze 1estzwiązana ze środkiem zmiennej. Zalwazmy, ze miary środkanie zawsze zgadzają się w tym, gdzielezy środekzbioru danych. Na rysunku 4.1 mediana jest równa I, co oznacza, że co najmniej potowa klientów przynajmniej jeden raz zadzwon1|ado biura obsługi klienta; moda jest równiez równa I, co oznacza, ze najczęstsząLiczbąpołącze(l z biurem obsługi klienta jest 1. Mediana i moda są zgodne. Jednak wartośćśredniajest równa I,563, czy|i jest o 56,37owigksza niz pozostałemiary. Jest to spowodowanewrażliwościądanych na prawoskośność. Miary połozenianie zawsze wystarczają,aby efektywnie podsumowaó dane. W rzeczywistościdwie zmienne mogą mieć te same wartościśredniej,mediany i mody, a mieć mimo to różne natury' Rozważmy następującyprzykład.Przypuśćmy,żeportfelakcji A i portfel akcji B zawiera|ypo pięć walorów , ze wskuźn1kamicenalzysk (P/E) pokazanymi w tabeli 4.f 'Portfe\e sąwyraźnieróżnepod wzglgdem wartościwskaŹników P/E. Portfel
.h] ńqnx I Buosuqol a1ztts4 >1u|ulqet.ur'itł,o.te1spod pl.&s.&els erurorzod eu op ruyuzcórpod n gve1euzer7oul lcsouue[uz r eruezo1od rurul eruel'/Y\gluo ezs [eru1e4 .9I.€ Dluns -ś'l z eluetp1r8n1sqo IueJnIq z yazcb1od śqzcl1ruur8olsrq cbtepeq.crzprar,t1odo] zuzow .(t.o) ,(E6I,t,LqO.I_) n1alzpazldop ,tzepu Bluelp{ ńn1sqo IueJnIqz yezcbtr lsel o] ,t9,Z : -od eqzcq ezs1órłr|eu .ń.to1snr,(uu1 ,,ilroruzor €9sśI DIpoJ' ł9{o1Y\ 9I€,,I . 7, nruerurordo ełoł z4bunen fza1 łr91uer11lcgozsąór^\BIp ?luolpl r8n1sqoIuaJnIqz yezc ,)IZpJeIMls .brupery -bpd eqzct1 oZ '(ruezou o8e[ e e1od trcgopen śzp 1.7 n4uns'(r 7 -órurod o1e| euełro1erdre]urcśqezoana^\opJ3pII?]S erue1'(qcp6 99o13e1po ..ezhodfi.. ' aupó1?z nzeq elue1'(qcpo .rcgo1lułreulen1s 3s euceqo elupeJ9 eplel ,ĘnzIZoI frerur euur ?irue;erd '(c'Ętpue łB| '{p3 .qcapzd'(zrd qcńu1g?ezczs.tł'ze] o3ap16 .lcgo18e1po13Jp3^DI elnd$s'tłl ezlozl*. .qc'(uopppo .trgt4undcsouJeqo eu a.ĄAIIZBJ.Ą\ o1Y\ ?B^\eruod 1sa[ełroprupuu1selue1,(qcp6
o1e[ euu.tł.oruuapz 1se[r rcgouuatutzb,lenl Łuqcazsłrod tevpmq|eu eruqop .8ue) ..{łro1'!rułu1 -odopłrerd qqgrd (uot1otl'ap pfipuD1s ałrop.rupuułs 1se[ e;ue1'{qcpg -śzpÓruld$szor ,eapÓ1?zmzaqelue1'(qcpoeupoJ' .ełroprupuu1s erue1'(qcpo,(eqerururur 99ouełr- eupur'{sąeu 99ope.u)(a?unł.8uu) sa.rr1uzo] Icgouuenuz Krc1uls.trod'{;
?rp rc,ouueru z'rerrrzalosalelp.s "r"1;J;i1;fftf,:il.xTx1Li:ffiTffij,"
e1e;uodgl4 qruu'Łc19ds16 .euocnzlzolŁs euep oZpJBq>Iu|.tt.ut;eqoeJ91ł.(K411qnuod, .Buu)rcsouue;urz ,(ru1ruqq (pnalds Salnszala .Bue) n1nzłzor ,(.re1ruo1 to salnsoau {o .e|ru1erqo8ezc .o1 .nzel'qo o8au1adrrreu?leru,t\edez elu ełpoJ' '{rerurercsrłr.(zcg
'I LI
II 8 L
9 I I I
leyuod nqo z urdpzal rrr agrol 'e't ntcórd e1p>1s,(z7zuec ąruu,(zc19ds16.7.7e1eqe;
'e1e;uodo8epznlep .0I eu.Ą\9J o|,I3lts r1eprodnqo iyd tse|g,t4€IupeJ' :eIIIes I I euł\gJts epourI €u€Iparu
1Y\-ołIu7DIS1Y\ ?poIIII elrcIpolu .uruperg,clllzgl qc'(1ourul eIV .Ic'oupoJouzgr lezsleruuro Ic9oue.Ą\?|eu g e1e;uod ,{ĄoJoIBł\ gJd In|uva4słt.',(uo4s|el8nrp Z ,ud u>Ilu7e>Is.Ąe I39 -ou€ł\ |e7np o uopef l e>Iru7t>IS,ł\ o3e1rcgogełr |a1eurozpreq o JoIPł\uspe| upersod y
statystyczne ffi{|4.4.Wnioskowanie W analizie Statystycznejszacowanie i przewidywarie na|eządo dziedziny wnioskowa. nia statystycznego' Wnioskowanie statystyczne składasię z metod szacowania i testowania hipotez o cechach populacji, na podstawie informacji za,wartychw próbce. Popu. lacja jest zbiorem wszystkich elementów (osób, rzeczy lub danych) dotyczącychdanego badania. Przyjmijmy na przyŁJad, że operator sieci komórkowej nie chce ograniczać swoich wyników do próbki 3333 klientów, o których zebrałdane. Wolałby raczĄ wdroiyć model rezygnacji do wszystkich obecnych i przysz|ych klientów telefonii komórkowej, którzy reprezentowaliby populację. Parametr jest cechą charakterystyczną populacji, taką jak średnialiczbapołączeń z biurem obsługi klienta wszystkich klientów telefonii komórkowej. Próbka jest podzbiorem populacji i najlepiej, aby była reprezentawwnym podzbiorem. Jeżeli próbka nie jest reprezentatywnadla populacji,to znaczy,jeżeli charakterystyka próbki stale odbiega od charakterystyki populacji, to nie nalezy lzywać wnioskowania statystycznego.Statystyka jest charakterystykąpróbki, taką jak wartośćśrednia|lczby potączeńz biurem obsfugi klienta d|a3333 klientów z próbki (1'563). Zalwazmy, że wartościparametrów populacji są nieznane w większościinteresu. jących problemów. W szczególnościwartośćśredniejpopulacji jest zwykle nieznana. Na przykład nie znamy prawdziwej średniejwielkości|iczby potączeńz biurem obsługi klienta wszystkich operatorów sieci komórkowych. ParameĘ populacji SączęStooznaczane Zapomocą greckich liter w celu przedstawienia ich nieznanej natury.Na przykład średniapopulacji jest oznaczana grecką ma|ąIiterą 'rr (mi), która jest grecką |iterą ,,m,, (mean - średnia). Wartośćśredniej|iczby połącze(lz biurem obsfugi klienta dla populacji p jest nie. Znanazwie|lprzyczyn,tącznie ztym, ze danemogłynie być zbieranei przechowywane. W zamian analitycy danych mogąuzyĆ przyblizenia. Na przykład mogą oszacować nieznaną wartośćśredniejpopulacji p' ptzez przeana|izowaniepróbki i obliczenie średniej próbki i,którazostałaby tlzytado oszacowaniap'.7atemoszacowalibyśmyśrednią|iczbę połączeńz biurem obsługiklienta dla wszystkich klientów jako 1,563, ponieważjest to średniawartośćobserwowanejpróbki. Istotnym zastrzezeniemjest to, że szacowaniejest wazne, dopóki próbkajest repreZentatywnadla populacji. Na przykładw zbiotze danych churn flrma najprawdopodobniej wdrożyłastrategigpoprawy obstugi klientów i procent rezygnacji zma|a|.Ta strategia w efekcie mogłabydoprowadzić do zmniejszenia średniej|iczby potączeń z biurem obsługiklienta poniżejwartościI,563' Analitycy mogą być równiez zainteresowani danymi, takimi jak procent klientów, którzy rezygnują. Parametr p jest statystyką dotyczącą próbki, na podstawie którego mozemy oszacować wartośćanalogicznego palametru łt d|a populacji. Na przykład w rozdziale 3 dowiedzieliśmy się, że procent rezygnacji w zbiorze danych był równy p : 0,145 L mógłby zostać użyty do szacowania prawdziwego odsetka rezyBnacji w populacji wszystkich klientów pod warunkiem, ze spetnione jest powyższe zasfrzezenie.
.Iuepó Z'nolł..oluqopodop^eJd il*H;l]::"il'."T:: 1se[ITfZc.99ou?ł\ łqeuozcftqo
-ed rcgo1rełr|e1slnśzcazlpo óls IuZąI ezslrrazattyyvldn14und BZSBu 'gouu.ĄĄBue./Y\oczzs t1e]seru .o3e1u16.eąqgrd zru ec.Ęs,{reDleJuqc |eu1ołropo r|cuurro;ur|ecórłl enllrrez e|c 'aru aru -elndod eluuoJqJnolu 'rlcelndod urerorqzpod zervreruod'rc9ou193o lsefe4q9rd 1V[ ,I : -qopodopłruJd elupeJ' eruus qcr1 ?łą elup€ plop lse|.,r.r9ro1uredo ćE99 I HqgJd ąe[ .1sńzs,t.t. ł\gluepl e]uelpl ńntrsqo {ueJnlq z uazcb1od eqzc\ BIupeJ9ez ,zsl19(ul Kz3 ć,ruD^ĄoJqzsafsDu 011saIaupo3 .fun1u o41śa.1ru1 fełro1e1zs(l4 z qnl A\9SnJz cb,zgln .ruletueled seu o8oct[nsoJoJul 4n[ .c€^\ocBzs ezoul Kpzes1:,(zco rvr elzpneld '{urzrtgd5 99ou?.ĄĄcu,t\ocezso'(ul9'(q113oyg
.9.' ]],l.,: ozsPuDseupoońJglm eeluPmocBzs łpr '1y\91ualH
qcq1s'{zs.t.re1p ...[e,t.tosotrB [1zcod nuu1d..op pdt1s,{zrd eru śzlgtĄ łr9łuerp1zazldelup n8ttc .t qcfue1s'tzro1'iu 1nurur1'$uecred66 ?et^ocezsońqe .p[q9Jd ...|ełroso18tlzcod nue1do.op qrdĘs,furd eru śzlgtĄ.łrgluerp1zazld erup n8trc łr qc,(ue1s.{zroą'0vr ]nurur n1f1uecred66 ?ś4n'(ug'{q18oru oqIV .1!\9]ueplqJIłu1 p9J'ł\ r|cu1ndodn. r|cuu8.(zer .u1uerp1 l8n1sqo€JnIq op ||IUoMZpEzśzel śzl1śZĘlĄt ...o8eł\op ]uecord 9u.ĄĄoc€ z so,(qe -oruu'(zpórurnu€ 1 d..op ud?ts'Łrd eru e1B...[ełtoso18 ś1zcod nu?1d..op qrdĘs'&ld śzl .lelupep4oq -9DI .1Y\91ueIIĄuJnqJ HqgJd z n1uecord pep1śzldeu 9śzn'tulgńqrt8our 'nrleruered o8atupauYrodpo €IIIB.ł\oceZsoop e1.(zn e?our .nuo1unmł\ilurupeuvrodpopod ergq 9e$oz .b4't1sf1e1s ,77lcgo1mn eru epZB) 'rfce1ndod.t n1ń1uecred 1se[qq9rd e>1ń1s'fiep1ereqo ,LT, .l|cupdod -€^\ocezso nlec .Ąt n1ń1uecred ńuigńqq8oul oq1e ?upur'(s1eu ?ś4n 99oueł\ .r4q9rd leu1eur'ts1eruIc9ouB,ĄA .r|cupdod zvr 9u'Ą\oc?Zso'tqe 9śzniuezour peg,{zrd el\I rulaurered o8eruper.tł.odpo eluu.ĄAocezs op u1ńzn gśqazoanqcfuup P{qgJdz ecb,zpoqcod a1.Ęsń1e1s EpvE>I.tj \eqel Z ^gĄłuftred op euozcruer8o c'(q Isnul eru eIuE^\oJ€ZS
ś-
7t
s
<--
!)
u
ś-
l!
lueJoJd e1ńopJepuBlserue1,(qcpg ErupeJs
-e.red qc.(ueuzslu Bllle't\oc€zso op otqgrd|erru,tlołrresqo pl.{tsńlBts "':?ff:;.itlłx: .E.v erue1'(qcpo.|eruper9 ryeqą Łcoruod uz rfcrodord l o8ełroprupue1s eIuP.Ą\oJBZs cu^\ou]nspod'(ulazo141.(apu4sa |utod.?ue) ru'{łror1uncuzsue;r1und euułr .l|cupdod ru]euered eIIIBł\oceZsop qńls'(1 .ńzeu lse| plńlsńlets 9'oIB^\ Buu,tto^/KJesq6 -€ls IJ9ou€1( telleuz |ezcu'{pefodulc(zn op órs Isoupo n14undp;o1taAĄaruDAĄo)DzS
Ta ńznlca pomiędzy obserwowanąwartościąSzacowanegopunktu a nieznaną w artościąparametrucelu jest nazywaflaMędem próbkowania (ang. sampling error), zdefi'niowanym jako |staĘsĘka - parametr|. Na przykład błędempróbkowania średniejjest (zawsze dodatnia)pomiędzy średniąobserwowanejpróbki anieznaną |i _ l.t|,odległość średniąpopulacji' Ponieważ w rzeczywistych problemach prawdziwe wartościparametrów są zwykle nieznane, wartośćbłgdupróbkowania jest również nieznana.W rueczywistościdla zmiennych ciągtych, prawdopodobieństwo' żeobserwowanawarlośćszacowanego punktu jest dokładnierówna parametrowicelu, jest Zerowe.Dzieje się tak, poniewaz prawdopodobieństworeprezenĘe pole ponad przedziałemdla ciągłychzmiennych, a nie ma pola ponad punktem. Estymacja punktu nie ma miary wiarygodności;nie ma stwierdzonego prawdopodobieństwa związanego z szacowaniem' Wszystko' co wiemy, to że wartośćszacowana jest prawdopodobnie bliska wartościparametru celu (mały błąd próbkowania), a|ę tez jest możliwe, żejest ona odległa (duży btąd próbkowania)' W rzeczywistości,estymację punktu moznaprzyrównać do rzucania strzałkamiznieskończenie małymi czubkami (szacowanepunkty) w niezwykle mały środektarczy (parametrcelu). Gorzej, jeżeli środek tnczy jest zakryty, a rzucający nigdy nie będzie wiedział, czy i jakbardzo strzatki są blisko celu. Rzucającemu strzatkami moznaby wybaczyć, Że w wyniku frustracji rzuci kuflem piwa zamiast strzałką'AIe zaraz|.Ponieważkufel ma swoją szerokość,zatem istnieje dodatnie prawdopodobieństwo, ze częśćkufla trafi w środektarczy. Nadal nie mamy całkowiĘ pewności,ale możemy mieć pewien stopień pewności,że środektarczy został' trafiony. Z grubsza,kufel piwa reprezenĘe naszą następnąmetodę szacowania,prze. dziaty ufności.
przedzialu u|ności 4.6.Szacowanie ffi.:..;;:. oszacowany przedział ufnościpaIametrupopulacji stanowi przedziałliczb, stworzonych przez estymacjępunktu, tazem z poziomem ufności (ang. confidence level) określającym prawdopodobieństwo tego, ze przedział.za,wietaparametr.Większośćprzedziałów ufnościptzybiera ogólną po stać Szacowanypunkt * margines błędu, gdzie margines błędujest miarą dokładnościszacowaniaprzedziatu, Mniejsze marginesy Na przykład przedztaŁr dla średniejpopulacji błęduwskazują na większą dokładność. jest danyjako x Ł t,12(slJn), gdzie średniapróbki i jest estymowanąwartościąpunktu, a wielkośćt,p(s l\/i) replezenĘe margines btędu. Przedział l dla średniejmoze zostać lzyty, kiedy populacja jest normalna lub rozmiar próbki jest duży. Pod jakimi warunkami ten przedztał ufności zapewni dokładne szacowanie? Czy|i kiedy margines błędut"p(s l ^,/n)będzie mały? Wielkośćs l Ji reprezenĘe standardo. wy błądśredniejpróbki (odchylenie standardowerozkładu próbkowania i) i jest mały,
nueld.. op ou,ĄAgJ€ZpdĘs'Łrd śzl9lĄ./t\9tuelplulp €iuelp{ r8n1sqoIueJnIqz yezcb1odśq .zcq [erupe;9luerue.ĄAoc?Zs Iu€ 1 Y\oSololrulvz '{ur9e1se| az,pep1,śzldvu,ńulz91e7.|ezń.tod avpe14izld,t.r ąei.,t.r91ueq>1Kzeq |e1uc1serruezł\9luelpl dru8pod qcńuo19eqo wtrrolĄJez €Iue.ĄAoc€zs qcńuep Łicuro1ds1eórs qcfcblnru|ez q9so po óls e8eurń,ł.r o]sózc >Ieupef elup n8.trc 'ĄAlnunu 667 peuod r1e1s.(z;o>1'(,l.r zero ..|e,toso18 ,(1zcodnuu1d..t ..o3e,uopo;uuśzpÓw nuu1d..op qrde1s,(zrdfzrgl1 ,t.rgluerple>I,(ts,{łels EzcIoIqZ.z.'
lŁ |al* r 1e**l"
ino
!l ll.sUg ł '.Łt
.s,(u
tsils|pfi'&I ; pbłEI '{,łanp;*prł*t* |a;up*lę a.ĄĄspJepuełs alua$qłpg !. .
eu.łnx I
t l' oul 'p' ' aT ]l sł o
]
" .' "" ritĄsĄełs .: {:: Eqz3rl. >ioBz MoulzoJ
Ptsńpa-,, Hilaa
.uP.ĄĄoso]suz IJ'oZsłó|/v\/Y\ acb|ezcm1sś'telu1ednz 1se|oc .e]uelP{r8n1sqoueJnlq z etuezcb1od976.9 ńu't.rgr1se| .809.I op npó1q saur8ruul po a1etzpezld,t.t' órs ererłruz^\91uelplIłJPIlsńZs.Ąd |u1n1 8I9.I €1uelpl t8ntrsqo{ueJnlqz uezcb,trod eqZcII€rupoJ9 rfcu1ndod't.re? .rułredob96uU '{ruge1se1 '(809't'gIg'I) .9'0.0
T €99.I
' Gttgt / srl'D96'r r 899' r ,(9L/s)z/"ł+ r
o1e[ etuerpl r8ntrsqoruer -uqz yazcŁ1od'(qzcr1|erupergelp ob96urńu'ta,gr Ic9ouJnsruotzod eU 1łEIzpeZId9ve1euz .{urezour1.7 n1unsńr z q'ts'.tlels tcoruod ez pep1(zld e51 'qc'{uupr|cero1ds1e,(zsntreu -ecs nIeI.ĄĄ €1p ueuelqord ]sei elu ezIeIUJZorru.,(znpo n1qgrd ar.uevelvuz ep1tm7 rJtouJn nletzpaztd atu -B.ĄAoJeZs eup€Plop |alzpnq9tułredez '(ruecqcqezef.rr1q9rd99ouzcq 9,|zs4Ćnlrrz ńurrsnur .rcgougn .qqgrd pezrd nurotzod ueluozluqo óts .{ruuqu.t. u 99ouueluz eu orupergodzeq .Ic'ouJn ,t.lourorzodqc.{zszrue1pńzs|amru 1seir e>1'(11eue 2ŁuĄd.t.rńrue?ou elu ?zmeluod zezldu(uo1)elno (o666op 06 po e11'(.tł'z) IJ9ouJnureruotzodI Iłq9Jd IueJsIIuZoJz l|uuz -Łrłrz ]se[ Z/"łĄIu?ouIN.e1uru1se[Iłq9Jd csouuenuz qn1ńznp 1se[rąqgrd leluruol l1eza|
międzynarodowego'',jak i do ,,planu poczty głosowej'',oraz wykorzystują co najmniej ffO minńw ciągu dnia. To znacznie ograniczarozmiar próbki, jak pokazano na rysunku,4.f. W próbce jest tylko 28 klientów spełniającychte warunki. Szacowany punkt w populacji dla średniej|iczby połączefiz biurem obsługiklienta dla wszystkich takich klientów jest średniąpróbki I,607 ,Mozemy zna|eźćprzedziat l na poziomie ufności95% jako x Łt,12$lJn).
f , 6 0 7+ f, 0 4 8 ( 1 , 8 9 21J2U. r,607+.0,'732, (0,875,f,339). Jesteśmyna95vo pewni, że w populacji średnialtczbapołącze(l'zbiurem obstugi klięnta wszystkich klientów, którzy przystąpili do obu planów i wykorzystali co najmntej ff) minut w ciągu dnia, na|ezy do przedziatu od 0,875 do f,339. Margines błędudla tego określonegozbioru klientów jest równy O,,73f, co wskazuje, ze nasze szacowanie jest dużomniej dokładneniz dlabazy klientów jako całości. Estymacjg przedziałuufnościmożna stosowaćdo każdegopafametru celu. Najczęściejspotyka sig szacowanieprzedziatu dla średniejpopulacji, odchylenia standardowego populacji i dla procentu sukcesu w populacji'
prostalegresiaIiniowa dwuwymiarowe: ffira:4.7.Metody Do tej pory omówiliśmy miary szacowania w danej chwili jednej zmiennej. Anality. cy jednak Są częSto zainteresowani dwuwymiarowymi metodami szacowania. Chcą na przyktad Za pomocą wartościjednej zmiennej oszacować wartośćinnej zmiennej. Aby poznać metody regresji dla szacowania i przewidywania, poznajmy najpierw nowy zbiór danych cereals (płatkiśniadaniowe).Zbiórdanych cereals, dostępnyna Stronach internetowych za zgodąData and Story Library fff, zawiera informacje o waftościachodzywczych77 rodzajów płatków śniadaniowychi zawiera następującezmienne: o Name - nazwa płatków' o Manuf - wytwórca płatków . Type - typ płatków(na ciepło(hot)|lb na zimno (colĄ), o Calories - kalorie w Porcji, o Protein - biatko (w gramach), o Fat - łuszcz (w gramach), o Sodium - sód (w gramach), o Fiber - btonnik (w gramach), o Carbo - węglowodany (w gramach), o Sugars - cukry (w gramach), o Potass - potas (w miligramach), o Vitamins - procent za|ecanegodziennego spożyciawitamin(0?o,f57olub l007o), o Shelf - położeniepótki (1 : dolna, 2 : środkowl,3 : góma),
.BIuB',\Ą'(pI.ĄĄeZJd
.bzcnśzpotrc9o1młr? nDlnc qnleluu^\ocezsnlec ^\itug qnl I|soJ8oJIIulI9'tzn 'turezo141 blcgo1nnez śzpólul1sa|o1 .(brzperłrodpo)( e (bctfnzou8ord blcgopełr) x rul(uuerurz '{zpónuod rlce1araruan1q{z'tdaMolutl o>1e[ eue.t'(zn ts ggg r rfser8erutut1 ..'qcuruur3.tr .ĄĄ9DIncóseul zezld euo?ouurod 7l(z snlur:uu f 6s Elol*rol1se[.trg4utrd9'ouE1Y\€u€.ĄAoJ -ezsg., :oąe[ euełro}erfue1ur cśqazolll l|ser8e.reIIIBu.ĄdgJ euerrrour'$sg.Zv,z_ - Iq e ,(sn3ns)7p,z ,v,69 _ 0q : Inałez t,6s : { ołei suup 1se|g6g nąped'(zrdulfi 16 .(słuatc{laoc .?ue) uolssał3al tsał3al trun>puu(zc4gdsu auen(zeubs Iq l0q o .rlser8erluqruarua1Ęcou5a| Iq o . ptńlcaz"ld u,tan1und t z r|ser8eJ Łrso IIuu , 5a| 0q o .n1ec |euuerulz trcsope.trr tuu.łłocuzstsel ( o :atzp?'(g-UA'uoponba uotssatBat płpuusa .8uu) t[sa.r8eJluelueu^{'grur'(uu,tlocuzso qnl (uo4onba uolssa.ł3al.8uu) ;[s .er8o.r rrreruuuł|gJlse| eue1f.tzeu,xIQ + 0q : ( tce1sodrYrerrusrdezr|ser8erurur1
9NN%,L,ZZ
08I
80zo0v'0v onr orz EL;EZ\,6I 666W1',05 I 98zż0.8 I Ł tEŁtŁ Ł!
E970Zr'6n e9s8E0'Lt n60vLr'tE rvs609'62 w8n8E'VE zr6n0L'86 90992V'69 619t86'tE EL6ZOV'89
06z
0zz 0 tz 002
I 7, t. 7
z 0 I 0
9ZI 08I 002
7
0rz
0vr 09e 9I 0gr
I E I 9 I ę 7, 7
v
0 I I I
z z
z z
w
E w
0I1 0I1
0zt 0It ozl 06 06 091 0I1 0I1 0I1 09 OL 07,1 OL
€] L o I
Z1
I
c c I
0 d
9 8 vl OI 8 0
s
E
9
t{ I
>I c u >I )
o N
sJnd socoJ sJelsnIJ IłcunJJ ]seoJ uoIIIBuuIJ soueeqJ qcuru3,u.de3 se{Pld u?rg xeqJ u?rg t crsBg s1ce1 elddy soueeqC uorueuur3 elddy lq311eqPuotulv usrg{lY Jeqrd 34xa q]r,/1r u€ Jg1IV u€ Jg PJru?N %00I uerqob00l
EnpX',,:, .19druerso isr)ao1 qcńuup nf,olqzez .t\9pJo{eJ91 qc''(zs,t.r.rerd 1ueru8erg.'.' EaqBJ
'^\9]BJpu^DI qc'{zsferuur|eurlser8er bul1 z anezer łrgąlu1drvrgfezpor E|p 1ń9DIncIc'ouB.ł\BZIuep LL .^\9Ąn3 -Ó13znqcśzcmśzpoTc9o$P^\nlnzłZol seq'fur erłre1spezrdg.7 99oUułr ąeunsfg -uz cb|euz.łr9>1te1d '(tu9e1se1 (?uanl) qcśzcnśzpolc9oue^\IueIIIB^\oc€zsluu1Y\oseJoJurez ..tł9ąle1d łrg|uzpor 91 qcńzsłrrerd u1pqcu1nqńłunrurgoo euBp elelfu\ezv.v E1pqe;.syoday nrunsuo) zazldeuozcl1qo,ezcnśzpo 99oilu1t\- 8uqeg o .ólcrod eunezt1eqzcIlsdn3 o .r|crode8ułr}q3re11 o
waltośó oszacowana I I
Srs B .N
I ! I
/.
Has
ż'.
I
r!:
I I
I
I
lr
!
I I
tal I
15 cukry
15
Rys. 4.3. Wykres rozrzvt.i dta za|ezności wartości odzywczych od zawartości cukrów dla 77 rodzajów płatków śniadaniowych
Zatózmy na przyu'ład.Ze jesteśmyZainteresowani Szacowaniem wartości odzyw,j' czych nowych płatków (nie zawartych w początkowych danych), które Zawierająx : gram cukru. ZapomocąERE możemy zna|eźć, oszacowanąwartośćptatków zawierująjako : : 59,4 f, f(I) 56,98. Zauwazmy, ze ta oszacowana cych 1 gram cukru ! waftośćdla wartościodzywczej|ezy bezpośredniona linii regresji, w punkcie (x : I, j : 56,98), jak pokazano na rysunku 4.3. w rzeczywistości,dla kazdej danej wartości x (zawartościcukru), oszacowana wartośóy (wartośćodzywcza) będzie się znajdować dokładniena linii regresji. cukru jest równa W naszym zbiorze danych są płatki Cheerios, w których zawartość powyżej 1 gram.Jednakich wartośćodzywczato 50,765,a nie 56,98,jak oszacowaliśmy dla nowych p|atków zavtierających1 gram cukru. Na wykresie rozrzutu punkt dla ptatków Cheerios jest umiejscowiony w (x - I, J : 50,765),wewnątrzowalu na rysunku 4.3. Górna strzakana rysunku 4.3 wskazuje na położeniena linii regresji dokładniepowyżej punktu dla płatków Cheerios. Jest to punkt, którzy przewidziałalinia regresji dla wartości cukru wynosi 1 gram. WartośćSzacowanaby|a zbyt duza odżywczych, jezeIi zawartość w pionie punktu reprezenĄącego płatki o 56,98 _ 50,765 : 6,215, co jest odległością równa 6,fI5, w ogólności(y _ !), jest Cheerios od linii regresji.Ta pionowa odlegtość predykcji, btędem szacowania lub resztą (ang. residua)' nazywanaróznie, np. btędem oczywiście, dązymy do zminima|izacji ogólnego rozmiaru błędupredykcji. Metoda najmniejszych kwadratów dzia|a poptzez wybieranie jednoznacznej linii regresji, która minimaIizuje sumę kwadratów reszt dla wszystkich punktów danych. Istnieją alterpomiędzy natywne metody wyboru prostej, która najlepiej przybLiza liniową za|ezność jak regresja medianowa, chociaz metoda najmniejszych kwadratów zmiennymi, takie jest najczęściej używana.
bznp ozprcq z ąeu'(r eIJeuozczsnd'furr'fie1soz (euosre11e6BIIIg ^\g$Iluroąz rcąsod .uu -I^IeJ euolqnF .squog re3n5 pe1soJdopulocoq3 .ńuzper.trod)qlz1d e^\oue? ,śulz91e7
.8.' gmlsuezco!dzeqo!N !lcelodBltsło ...:.# .{€uZ Iu€s ue1Łfuru ezsb\ezIq firło>1uruaĘ 1ruufzc1gds.trr ; |ełro1qgrdr|cu1ero>1 ąruu,(zc1gdsłrrcso1sr't.rńZJezl 1{\.eurue|nbs lQ l.l o,troąped'Łrd ,ez)euzo oJ .eIN .ouB.Ą\oIoJołS erum.&e8su ?s ru4nc ?1oqewez l ezcn(zpo 99oueł\ ez .9L,O_ ńu't9r ; lełro1qgrdrlcz1eroą 1se|&4nc l ozcu{zpo ?,ouDfuvu1p ryuuńzc19ds16 .g Dlrułdzlubzsteluul łrgtąund : (zv,z)s ob,zcnśzpo tuułrocuzs celul |ZI ?'ouu1!\ .g pl1€łd zru |acór'tnnDlnc ^\9lu€r3 o b|enlnez er91ł .V ełrorueperu9 ^'(uurłlod 9 1ą]e1d pe14(zld e11 ...n14und1v,Z o órs ńzs|eruruz ezcn(zpo 9'oue.ĄĄol .ruer8 I o eIu'oJZ1Y\ .r nJsoJZ'ĄĄ n.l>lnc?9ou€Mez |Ieqar,,:oĄE|Zt,(, - tq '(rue[n1e.ldre1u1 o8ełro41soupa|elp tc9ogełr óuewz tuu.tłocezseZceUzo r[ser3er [e1sordńłroąureq >1ruuńzc19ds7y1 8I0'.€I 67,10',5r 69t6'8 9909'E I99T,I 8 g gr ' 9 6V0t'vE 9rL9'8-
o(Lv vL
n'69
8I08'Zr
70!
vf]9
v'6s vos 70s 7bs
n'69
69tZ'89 9s00.€ 9 rgsL'09 Stts'n9 6V0L'86 v8z8'09
ezrs uoods ł?eqr!\peppeJqs uBJB.u. ł€ eQ!\ peppeJqs l€ eql& peppeĄs l?erl/v\ peJJnd ecry peJJnd (łclnÓ) leeq^\ Jo III?eJJ Jeqld € łxa WIł\ ueJgjIV JPłuluO re4unI
.",,^ffi:];:"#:'ff,',;łiiT't''JłTj pb1q €Ip elue^oc'zso l ezcmśzpo9gou'1ń euerrr,(prłrezrd .(0 : x) tcŁferu9e|qo 99oilełr buzcś1ueptt|eurppu1deuoluelu .eruzs -'{łr zułteruod erflsńzszvr er>leJ ts rcgopervr euełrfpr.u,ezrd errysfzs'tl' az,t{ulzentne7 .9.ż ,l,69 eIU łeqą 1KeuovY\€lspezldb,s?Iu€.ł\ocBZSopepółq ZUJeZeIIc9ouBł\eł\Ic'?łł[ -pep{op3u.ł9r bzcnśzpo trrełtocuzsot|eur ergry .u1nc bngoyenez bnolaz z 9'oil?1!\ e.ttoluepelu9o11e1d b[e1u1slolu ,śul?enne7 'ł\oDlnc eZ blrrgoyututuzb,tytolez z n91letrdbzc - 0q ńuIo/Y\zelś,nqc.{uup -łr'tzpo buerYrfprrYrezrd e|Ęuezerder n1sord od,,69 99oue.tł azlolqz ur^,{zseu MInelvZ..ĄA9x,In3 ecb|enlnezem ?|eru1srzełreruod.sueseur qc'&lr 141e1d -oluepelu' qcu1łe1d.ĄĄnDlnc ?,o|JEh\eZenolez qcńuep ruoIqZ o8azseu elp łuupof .nąpedńzrdud1 m nsues Pru etu o8eu1o.unzelśn .(r) eluezcvuz u|cele.rfue1uI e7'>łr..l.eus€lelu o8e| er.$e]s 1Se|0 * ]soJZł\?goue^11 n1sorzzvr -pod eu (() tełto.te1spodf1o>1zs el:uzcnl?un getzplttazld '(ru;'(qqercqcav ,pep1(zld eu .{rn99nd'tzr4.nsuesBIuelu |ectlerugu|qofeuuerruzelrlroloz9'o1J3^\.qcuąpud'(zrdn1elłr16 'nJezeungr lselzcbferugelqo uuuenuz fp8 'n1ec leuuelurz eue.rfpr.rezrd 9gopu.no1]se[ l1tzc ,(' 9o eurcezrd r|ser8eru}sord avp? ,( ISo 3u uecslerur tsel oq ,(u1ołrzelś6ą
- 30 gramów na porcję. Użyjmy naszegorównania regresji, aby oszaZawurtościącukru cować wartośćodzywcząChocolade Frosted Sugar Bombs: ! : 59,4 _ f , f(sugars) : 5g,4 _ 2,42(30) : _I3,2.Innymi słowy,ulubione płatkiCalvina mają tak dużocukru, zewartośćodzywcza jestliczbą ujemną,w przeciwieństwie do innych płatków w zbiorze danych (minimalna wartośćodzywcza = 18) i analogicznie do ujemnej oceny studenta z egzaminu. Co się tataj dzieje? Ujemna przewidywana wartośćodzywcza dla Chocolade Frosted Sugar Bombs jest przykłademnieuzasadnionejekstrapolacji. Analitycy powinni ogtaniczyć,predykcję i estymację wykonywane Za pomocą równania regresji dla wartościobjaśniającejw obrębie przedziału wartości x w zbiorze danych. Na przykład w zbiorue danych cereals najcukru to zero gramów, a największa 1'5 gramów, tak wigc szacowamniejsza zavtartość nie wartościodzywczychjest wtaściwetylko dla dowolnej wartościx (zawafiośćcukru) z przedziałllod zeru do 15 gramów. Jednak ekstrapolacja, czy|i szacowanie dla wartości x |ezących poza tym przedziałern, moze być niebezpieczna, poniewaz nie znamy natury relacji pomiędzy wartościąprzewidywaną a opisującąpoza tym zakresem. Ekstrapolacji nalezy unikaó, jeżeli jest to tylko mozliwe. JeŻeltna|ezy wykonać szacowanie poza danym przedztałem'użytkownik końcowy powinien wiedzieć, że nie są dostępne zadne dane wspierające to oszacowanie. Niebezpieczeństwo tkwi w tym, ze związekmiędzy zmiennymi x i y moze być liniowy w zakresie x ze zbioru danych i nie musi być liniowy poza jego granicami.
przewidywana waltość y opafta na dostępnych danych
@
rzeczywtstawartośćy
Rys. 4.4. Niebezpieczeństwa ekstrapolacji
Rozważmy rysunek 4.4. Za|ózmy, ie nasz zbiór danych składasię tylko ze zbioru punktów w kolorze czarnym, ale prawdziwa relacja mlędzy x i y składa się zarówno z punktów czarnych (obserwowanych),jak i szarych (nieobserwowanych).Zatem|inia regresji opartajedynie na dostgpnychdanych (czarne punkty) będzie wyglądaław ptzybliżeniu podobnie do przedstawionej linii regresji. Załóimy, żejesteśmyzainteresowani
€ulenpl^\fpul) |ouuoTulzIc9ouu.Ą\leuerq'{łro,Ą\osolzlu ('(se;r1eu1ónezld) |euusrurzleru .u4os'(m -poJ' 9'ouueunb,zs|etulll uu bfnze>1słr ełpglv ouozpJelł\}oder51 ąel e;'(q 'tsu11 BIupeJ9'(qe .e;4'(tłzeruueDlłec 1se|e1u lvrgryund96 elu8tlso luepn]s ,(uurq'funołros -o1 ez .ruńyqś.nzelu ru'(zcru er5 .ruepup1dzrdrufu|e1o1ts nururuz?o z qp.{16 1se| .Ic9ouJnerurorzodru,truesu.{1 uu Kuśąną D{Iupoł\BZo8euerq'(tł'o^\osol€Ip orueł\ocezso7,IueupuPlop t'a1zprcq:ulsrlez elzpÓq śutz .śzcel?qcśu1g?ezczsod -rup yezJepn eIue^\o3BZSo gezrepn eupeJ9 ZIuelqols op |eppar9 (KzcełBqcrr11s'ksłr[ulupeJ' Łs ergp1).{u.{zrupvezrcprerupeJ' oZ eaoz|Iqz |e|zplr"qbs ,bp|euz,uezlepn qcT.upeJ9 Hńlsńtuls ełrotupo8f1 cbtepb1?ezfi.nIIBqesPqlc9efzn1uepe11 -,{zrd pep1s e111 nbcbzpoląc^Ą ze1 śzc.feuuelurz tuerqń't.r o'Ą\osol ileluperg |e1 ?9ouu.ł\ 'Ł3 truper9 ?lopełr catzplnazld 1se| ..[erłr1e|,śzc .órs ge1erłreuelsez4elz*r1o>1'{per4
r ooouPp Plp( lcgouBrllr
d lc$oulnĄP|zpozId .o|.t .....,,; !auelqńmomoso I P!uEfltńp !/nozt .[ |euurq'it.r '(u7pu.łr lcgopełl o^\osollo'ouJn snvpazld,ntrevpazld tezpol '{.,rnou ,vlo1etzpazldurr4ą .erzpep1tzld Bu .óIS tlllśzl|ńzld -ordlr rrrrerdleu ł€ u pe! !e7po4 .]ZseJ.ĄA9]BJpB.łDI €IunS _ : : .s.IcsouJnuretuolzod r gSS .Bruu.ĄAocezspb1q,.{łropmpue1s il/gss^ I IISWł plqgJd IueJeTIuzoJz śuezbtlrrz J€I€łs - z/n1./ Icsoug1Y\ e1p I ełro1ąundetceuśt leuup .r dx alzp? -se - d( .eluu,t.tocuzso 1se[auełr,(uo>1ńłr |er9p1u1p csopu.Ątuula.Dluoło1
z(t-!x)Z , u d{ : npó1qseur8ruru ńuełrocezs @)z/n,T a ryund ar! -,1Y_ :'btlndłseu 1se|r rc9oge.t.rleuup u1pl( |erupe.l9lJ9ouu,Ą\Ic9ouJn|tvpezld .f Icsou€ . ĄA |euepu1p[ |eluperglJ!ouu^\ I39ouJn ś1elzpezld .brcgoupepąop z o?elsezb,I.ĄĄZ €łĘsyelqopodopłrerdeluezc 9e1s'(zroą'{'t'{urezoruo3e1u1q -€uzo łBJq eIJIł\oueIIu.ru'{zYrorerul{znoupef ru1ped.{zrdłr e,uop1unde|ceul&so oc .'(pułr ul't1 łr ułro14unde|cuur'Ęseetcsr,t'(zcg .|ect|nsldo leuueruz rc9 eluas el ?Iu elcPle]uo>1 -ou€1Y\ |euupu1pn1ec |euuerurzIJSouB^\Ł.t.roqundó|ceurńłse'(ru9ryłrgurosezcqc'(1oq
.6.7 r o0euep Plp( lo;upelg lcgouefn lc$ounĄelzpezl4 ..l..,'; 'p{lrr>ls eu.trolzso{ ?evlr ezour trcgouzvredz qc'(upółq qcq€1 eu euedo yece|ez epe1e45 .ulue.ĄĄocezso npó1q o3 Iłcalrrrazczsnddzrd -erur'{zrq1o eru1ednz '{uopenr;elu eru1ednz 'tq1'tq cór.,rn.qcńuep qc,!'fu1n '{ruopeuvrgeru pbłq rul'Łrq1o ecb|ezceuzo sruII €^louotd e|nz ńq;'{q >1'$1pu3Zemeruod .PIue^\oJ3Zso -DIs^\oc eu .eupó1qeruzc'fise.rp'(qo1'tqoIu€.Ą\oJBZSoerc9rłr'Łc6 .Ó41ez4s bul93 zazld '(uzza1słrr|ser8erttul1€u qund zezrd au€ł\o1uozerder'(pe1łr,(qo1,(qqc'(uep qc,(udó1sop Iuerue^\oc€Zso eu euedo.arlm.ł\oc3zso.ula1b1|9ł|sueza1słr x Ic9ouu^\e1p ( tc9o1ru^\
:$. l
n ocena)' Dlatego jest ,,łatwiej,,przewidzieć średniąklasy na egzaminie niż ocenę losowo wybranego studenta. W wielu sytuacjach, osoby zajmujące sig eksploracją danych są bardziej zaintereSowane przewidywaniem pojedynczej wartościniż średniejz wszystkich wartościdla danego x. Na przykład analityk może być zainteresowany przewidywaniem zdolności kredytowych pojedynczego klienta ubiegającegosig o kredyt niz ptzewidywaniem średniej zdolnościkredytowej wszystkich podobnych osób, które się ubiegają o kredyt. Lub tez genetycymogą być bardziej zainteresowaniekspresjąpewnego genu niż średniąekspresji wszystkich podobnych genów. PrzedziaĘ ufnościprzewidywania losowo wybranej wartości y (ang.prediction intervals) są używanedo szacowania losowo wybranej wartościy ' dla danegox . oczywiściejest to zadanie trudniejsze niż szacowanie średniej,a w wyniku otrzymuje się przedzia|y o większej szerokości(mniejszej dokładności)nizprzedziały ufnościdla średniej przy tym Samym poziomie ufności.Przedzlał.ufnościprzewidywania losowo wybranej wartościy dla danej wartościJ jest nastgpujący: punkt szacowany t margines błędu: j, Ł. t"p(s)
1
r+-+ n
@o - i)r - 11z. |ęxi
RegressionAnalysis: Hatingversus $ugars The regression Racing - 59.4
co€ r sg coef 39 ,4ąĄ } ' 951 "2.41,93 4.2376
PrediĆ,l-or Constane Sugars S * 9"].62
R-sq _ 58.0a
of
Analysis
equaŁion is - 2.42 Sugars
R.sq{adj} * 5?.ź*
Variance
Source RegresŚion Residual Error ToŁal
tF f 15 16
SS a7aL.? 6295.L 3 . ą 9 9 $' 8 PiŁ 59.4ą 4Ą.93
N' denoŁes
an ob*ervaĘion
wi[h
prediĆŁed
va1uĆs
$el'' obs L
pit ,7.02
l{ew obŚ 1
of
for sr
Predictors
F La3 -6",
Ms 87a\.7 83.9
unu$ua1 ohgervaŁionś obs $ugar€ Rating 2 0'0 93.7a 6.a 68.Ą0 32
value$
p 0.000 0.000
T 30.47 -10.L8
s* riŁ r.95 ]".07
a large
P ł .aaa
nesidual 34.26 23.48
sŁarrdardized
$t &rsid 3.83R' 2 '58R residual
$evł obs€ r vaticn6 r'.źŁ 1.73 for
i
95.0a E3,53'
cI óa"521 (
New obs€ r l'aŁiÓ'1s
s!-lgarg 1.00
Rys. 4.5. Wynik regresji pakietu Minitab
95 ' 0ł pI 38.4ą'
75.67}
ol {q€łńg .rłpedfzrd e.ĄĄou9oIZpInezld '(qu .(tuerperu .Łrupels .du) tłro>1ru,ilrbuuerurz ezqcślnzblłrz qc'('uorerulfłroupefrer.u o41'! '{ul911'fun r 'tugqełrorou?v?e| a1e.tłro1 ,śulz91e7 -ru'{rvrbuuerurz u Łctlnsrdo tuuerurz 'Łpóltuod B^{oruł ?,ouze|ez a|eru1sraz
'l PuloDlololm Plsoroou t't :.;:.,: .tr lcsouu^\leuep u1p( lcgo1rzłr|eruper9zru ( lc9opułr feu -1g?azczsodnIuB,ĄĄoJuZs łr oruułrz.,iłr ezs1ór.t ezceuzo oc,|ezcnśzpo lc9ou81l\|e1uper9 BIp Ic9ouJn1elzpezłdztu 'Łsąóltt 1se|łr9ą1e1d n|ezpor o8euurqńłro^\osole1p|azcntzpo Ic9ouuł\uruu.t.,(prłrezrd lcgou;n 1evpazld.ruletuułtr;ezco z elupo?z e7 ,ślllenne7 .fi9,9L |w,8E) rsou'&lrob96 |c9ou!n erulorzod 3u nDInJ urer8 qc,tc?|erenrez łr-oą1e1d 1 nlezpor o8auerqń.t ołroso1e1p|azcnśzpoIcsousł\eruurrrńprrvrezrd tcgou;ntrurzpezld . .k,9.O9:€9.'9) rsou.{łrob96Ill1olulnerruorzodBu nDlnc rrrer8 1 qc'(c?lurer.tez ng11e1d qcr11sńzsłr e1p |azcnfzpo Ic'ouuł\ lerupsr9 etue,t,tprzrrezrdrcsou;n łłrzpezrd . .ry4und o8euełrocuzs lcsouuenuzb,letul łsatł{ E5 o .(łr94ruu'tzc1gdsłr lcsoilB^i\\ rurerue18tqoez rulśzstelusozc1Y\ Bue^\opo,tods solJeaqJ łr9>pe1d elp 86.99 Ic9ouB./Y\ tsai - ( _ : urepó18z.tt ecwzgl) :n-r1nc ruer8 1 qc'tcblererłrez^9Ą zO,Lg fi)t,aw,z wv,69 .ur'(uululśzclu5e| yg o -te1d qcśzcn(zpo u1p Ic9ou€ . tt ur'{uełrocuzs uep1und o41'! .nDlnc urur8 qc'bŁ|ureltrez ngn1etrdn|ezpor o8ezvrou€Ip uluu.i!\ 1 -śplnazld Ic9ouJn ng1etzpazld ecbzcś1op elceuuo;ur ślnalzp|euzelop Pu .nJyoł ł[ .nĄnc nurorzod o8euupe|p eznp errrułrerzpodselu e1ńq ezcmśzpo .ń]zserelu]Bpop eznpbteul er9p1.(uzrg obOOD (Jeqlc 9'ou€'ł\ az,ecb|nze4szrr ćEI.>Itałdl Błxa q1I^{uBJg-I1y) z Inwłd,afcoulasqo aą4fuwzatu oI^Apłeł\o{gśluepvqu]plntr 'erueryrosedop eJqop eu w(cb|nze{sł\ r.urptsllqnuelJ'ouB^\ z,qc(uep op |ełrorul1rlser8er nlaporu %00I-06 eruezrrosedop tmr.tll (1erpełr45) pa.runbs-y o e1ruuńzc19ds^\ lse| lBJpe^lx 1|ce1ero>1 .Blueł\ocezsnpótrq..o3e.tłodi1,, lelulzolez)vuzo.etue.łtocuzsńłroprepuu1s pŁ1q.5 o .unz po ocbzceuz óls ruzgr ślmpez .a|nze1słr(s0.0 > egf'rrz) 99o1nn-d ątuu.{zc19ds.u BłeW..Ą\9>Iluuńzc19dsłr up ze1odrqA9]Se1Qcfilc9ouułr-d auepŁs 2, Ąsp1Ąe lezruo4 o .'{ze1odrq n]se1ulp l n]Se]1ą't1s'$ąseuup ?s J ?teq'$e pod . 'łl9>1luu'tzc1odsłr rcsouuerulz trerul 1se['fi91ą .rvr91ruu,&c1odsłr ,{rvroprepue1s pbłq5a| taoc gs ,{taqfie o !e71uo4 'Zn'Z'q I : .t|ser8el r1ruufrzc19ds.,rn o ?s euopelr*r9'{łr eludó1se5 t,6s : oq :{aoJ ?lepl'tłe pod ,(sn3ns)7p.7, _ - [ :r[ser8eJoIuBu1Y\oJ eu3^\oc?zso.".'np* o łrrerd|e51 1se| ,,69 :DIIuA1ń eJ AIu,/KoIuo eIIAqc ZezJd .ruer8 ,lącńzclrl.śzpo IJsouBł\ qc1qls'Łsłr lerupergrcgou 1 rsou.{zrrnllnc 99ou€ nez ,|p3 .nnlnl -1n1evpazldzeluwgl1'Łcqqo qetpTl^tr p,ouD^ĄDz erłru1spod eu fazcutzpo p,ol -"touvruentśplnezldelp n1unsńr eu euezuąodrlser8er BZJJ€1Sop q€11uIW 9'v 14ru'tłr .lelupergIJSouJnntrelzpezldpo '(zsąóvrt ezswez elzpÓque11ntzpazld az .tueu erułtedezoI .ueDl]Sul,łrrord pod ..-1-I..trcgoucsqo ezod,x o8euep e1p { rcgopun ,ślllzemtw7 le1upergIc9ouJn 1elzpezld eu I9z1\\ąe| ures pIą elup€p1op tsel I9Z1^loolez
strata informacji, a taka jednowymiarowa miara będzie średniodużo mniej dokładnym estymatoremnowych wartościzmiennej opisującej niż modelregresji. W większościzastosowań eksploracji danych występuje dużo (w rzeczywistości, nadmiar) danych, niektóre zbiory danych zawterające setki zmiennych, z których wieIe zalezy liniowo od zmiennej celu (wynikowej). Modelowanie regresji wielokrotnej (ang.multiple regressionmodeling) jest eleganckąmetodą opisywania takich zalezności. Modele wielokrotnej regresji zapewniająpoprawioną precyzję szacowania i przewidywania, ana|ogicznądo lepszej precyzjiregresji nad estymacjąjednowymiarowa. Aby zilustrować zastosowanieregresji wielokrotnej Zapomocą zbioru danych cere. a/s, spróbujemy zrekonstruowaćwzór uzyty przez Consumer Reports dla wartościodzywczych płatków.Zaczynamy badać za|eznościpomigdzy zmiennąwynikową wartość odżywczaa zmiennymi opisującymi kalorie, biatko, ttuszcz,sód, błonnik,węglowodany, cukry, potas iwitaminy Zapomocąwykresu współrzędnychrównolegtych' który przedzmiennej wynikowej od kilku zmiennych opisujących, z naŁozonąoszastawia za|ezność cowaną linią regresji.
:fi 77,5 13f,5 kalorie
f,25 4,75 biatko
1.,f5 3;15 tłllszcz
f40
80 sód
Rys. 4.6. Szkic wykresu rozrzutvwartości odżywczychwzględem zmiennych kalorie, biatko, ttuszczi sód
Z rysunków 4.6 i 4.7 możemy oczekiwać, ze biatko, btonnik i potas będą dodatnio skorelowane w wyższą wartościąodżywczą,podczas gdy ttuszcz, sód, cukier i, zadzl'wiająco, witaminy sąujemnie skorelowaneZ'wyzsząwartościąodżywcz4.Wydaje sig, że wgglowodany nie są skorelowane z wartościąodżywczą. Możemy zweryfikować te graficzne spostrzeżeniaze współczynnikami korelacji dla wszystkich zmiennych pokazanymi w tabeli 4.6. Pierwsza kolumna przedstawia współczynnik korelacji zmiennych opisujących z wartościąodżywczą.Jak przewidziano, biatful, btonnik i potas są dodatnio skorelowane Z wnrtościąodżywc7q,podczas gdy kalorie, ttuszcz, sód i witaminy są skorelowane ujemnie. Analitycy danych muszą unikać wspótliniowości,czy|i sytuacji, gdy kilka zmiennych opisujących jest ze sobą skorelowanych. Wspótliniowość prowadzi do niestabilnościw przestrzeni tozwtązail, zatem do otrzymania prawdopodobnie niespójnych wy-
.śztdeazoul.euełroąg,(relriz K1e1soz elu BIueZołezo?aryta.n1eporuelcśzn.euełro>1gfu -al^z ?elsoz tzsnur nlapou e|UezołĘZeue8eu'&lr .'{uułl'ozqeerze|uelsoz lepou WlUeZ
'z|n ,:,,:,;' n!3polf,f e!ce1;|ńle uglolBz I 'bct fnsrdo buuettsz o>1elsn1od buuerruz '(rurc9ndon}sordod elzpep1lzrd ur.{udólsłrru'(l .t .qcdułr913qc'ilvrope;qsEzI|eluEł€| opl -el .lul'(uuerurzrurńuełro1aJołs aZ alqos Bluezper ńpoleur auopzsń.tł |a1zpnqt|eru]srez otu[^tr.(906.0 - l) ulaqluuołq Z fue.to1ero4s elups sp]od !etn1 .erulg.ttpodeuozc $at -II zu.lrreruod.n1epournsózc leułred euerui'{zrq1o,.it.r Buo e|npołrods.errełro1ero>1s 1ss| .eupqetseruŁs eru r1ru'&n r1eze|.1ełruN.^\9łIu erups Łs er9D1.qc'(uualulz eluazcb,ł^\ rcj'0 zzt'0 LST'0 9€ 0 .0zz'0 vsE'0- s06'0 t!Ł U_
LŁl UL9Ł ()-
I9t'0 t Ł(,'('-
960'0 LgE.O tŁ(,' (,'-
It0'0- /00'0
s9z'0
wz'0-
t6r'0 6V9'0 190'0- 08€ . 0 LgZ'O V L L U n9s'0 L 9 L U _ sLŁU97,1'0- 992'0 920'0 909'0 tÓó (,l900'0- 9 9 ( ) ( ) - l U Ł U 802'0 66V'0 6r0'0
',óu€p'}e.l:] -or8Óm
0s0'0 LLS,O I0t'060v'0ILV,O 689'0-
'(urruu1r6 s8lod
Ąnc 'tuupoaro13fu6 {Iuuołg
p9s
Z)zsałL ołłuIg euols)
:tP.9sl:ii:l qcńuuerurz qcqls,(zs,łre1pr[ce1ero1qruufzc19ds16 .9.' BJaq€ J
ful1nc ,Kuopouo1ffiu,ytuuo4q
(utwoltu t snlod qc,{uuerurz urepó18złr qc(zcnKzpo
fururelr,tr 9L
selod
9Z
,{.qnc
;Z'LV..SL'r8
;Z'il
SL't
lt.
lc,ouL,hI nlrlzlzol
,fuupolło18ó,tn SZ'LI 9L'9
nserr1, .tr cqz5
.1,.7 .sdg
{puołq 9'0I 9't
rl
.fł.
.jr!' *Jr
t'..
.
rtl
równać do budowania domu, którego fundamenty mogą się zavtalić.Przewidywanie na podstawie modelu, którego za|ozeniaSąnaruszone, moze prowadzić do błędnychiprzesadnie optymi.stycznychwyników, z kosztownymi skutkami po wdrożeniu. )\ f,0 Ż..n tr
ila
.ł
E o,o .ó 6--nś
t" "
E -t,o
-1,5 -2,0 -f,5 -3
--2-1
ł
l.r'
,t"
01f standaryzowanareszta
Rys. 4.8. Normalny wykres kwantylowy
3
)
Ń d -
lr ra alr
o , H l
t!
:t li l, ,..-; .'l t'+.. ",--
d
Bo N h
d-r
I
.t
E
ar tr --l
ls
25
3s
7s ,"li"uun;t"t".",urrf;'"
8s
es
Rys. 4.9. Wykres standaryzowanych reszt względem wartościprzewidywanych
normalnośći staławariancja - mogązoTe zatozenia - liniowość,nleza|ezność, staćzuteryfikowaneZa pomocą normalnego wykresu kwantylowegol 1rysunek4.8) i wykresu standaryzowanychreszt(rezyduów) względem przewidywanych wartości(rysunek 4.9). Normalnośćmożna ocenić, sprawdzając,czy wykres wykazuje systematyczne odchylenie od lini prostej. Wtedy mozna wywnioskować, ze wyheślone wartościdanych (w tym przypadku reszty) nie pochodząz zadnego szczegóInegorozkładu(rozkładunormalnego w tym przykJadzie).Nie wykrywamy systematycznych odchyleń od liniowości na wykresie standaryzowanych reszt, a zatem stwierdzamy, ze załozelie normalności jest nienaruszone. lNormalny wykres kwantylowy jest wykresem kwantyli próbkowych rozkładu reszt (rezyduów) (lub reszt standaryzowanych) względem kwantyli rozkładu normalnego odpowiedniego rzędu Qlrzyp, tłum.),
.unu?llł\ ?Icfzods o?euece1ezo8euuarzp ]uecord Kzel p1gg,g snuT.tu qc€IuuJts ^\^\9Ąnc ?sulu AZBJ€z8.0 snulul qceurer8 ttrł\ouepo^\o18ółr esela tzel 96.1 sn1d qcuuer8 ^\DIIuuołqeseu fzer 2g,7 sn1d qcuurer8qrur^\npos eseul Kzel 9żs0.0 snurru qcuurur8ł\ nZJZsnł]eselu śzel00.z snunu qceulur8 ^\BłłeIqeseanśzelgg.7 sn1d rlcrod łr TpoI?{ eqzll| Kzel g77,g snu[u euu.ł\oc€Zso 6.99 €u1(9J 5a| ezc nfizpo 99ouB1Y\ :ecbfndółs -eu ]se[ r|ser8ereIIIBuł\-oJ eu€ł\ocezso .p1ru'ilr ect|nsere1ure1elupupIop'(urrungurg gptlul6 n1e14edfeu1o-qolerrn rfser8erryu'ly1 .6I.t .sd1
000'0
Ł6,I,8a
0'1 B.sg8t
8'9S6tr 0' 0a 8' 9e6tT
9L s9
:ol.:g
9€. 8* TE'EI* v9'Ll 95'ea0g'018?' ?t6t'99 .t
?E'56
u0 8 s 0 0 ' 0 68190'0 t6090'0 9S890'0 609T00'0 198r"0 9e9r'{) r!5TS'0 I.zvg,ł ;aoJ as
{e10J I€ n p"I$aN uwfsbdrldd
u
Aa:nOS
JA
óJW
33uę"!Jeł
*s.66 = (fprlbs-u 000'0 s00'0 000'o '0 000 000'0 000'0 000'0 000'0 000'o d
Jo
gT*d1eu.l'
910"1 : s
3 bg-{
suluefi^ s:e6ng $oqlpJ "xaqT,g urnlpos ?€d uT€?o3d saT:o1"J lue?slJo) :o1J1pó.:€
?e?tsa'a* t}€e8,!* t09t0'1 r.9r.L6',e a79'90.08?00.e,7"88,z 9SVZZ'Aat06'9s }aa3
ś i ' . ' l l 1 € ? 1 1ż T 9 0 . 0 - s ; r e 6 n g t z g ' a . soq:e3 8Q': 1. j[aqTć ŁE.z + urnrpos 9}'0.0 - ?€.{ o0.z * u1aąo.:d 88'e + sgT:o1eJ 57,z,a - 6.99 = 6u"J1Pd uolssa:6a: ar4g, *1 uollenba
.0I.ż Dluns/fi Bu Ńlmze4od |eu1orąo1evnrlser8er >IIuńł\ezcJ?]sop qel1ulry .[eu1or1o1e1łlr|sor8ar 6zl1eue .euozsruuu ?s eru Eluezołeztzc ,nruezpmerdsod ule1ez.n1ou 9ułronuf1uoąńurezou -[e1o1uepó1?zn 1zsel ngser4'fur qn1n8etqezrd łlglsel tcourod ez rcgou|a1o\g,ouze|ez -elu Bu npó18z,t ez euozplrlterdsge1sozt8our nsezc po euzelez eueq .1K9łlB1dnfezpor po śze1ezllrgłlełdn|ezpor o3eupefezcrn'Łpo ?goil€'t\ e? .órs ^,truełrerzp o8euur Ic9ouB^A -ods eru zułreruod .qc'(uep az:lolqz ruń] łr euł\osues1sef rcgouze|Ezelr aIuezowz .euozstLlzuoru atzpvp1śzrdu& 'tł?s rlcuerren [e1ąs l Ic'o.ł\oruqe|uezołezez,Kulezplerłr1so3e1u1pl 6.7 n1uns'ft Bu ł\gcJoz^\qJpI€1 ńruełr'fu1 -'funer51.euozstuuu1se[rlcuuuełr[e1e1s o oluozołBzo1tłro>1eupa|eru eruzcńrcrue1s'{s tsel erserą'ctreu łr9l4und lnzlzoI,irrouord l|ezef 'enozsnreu1se[Ic'o.toIuIT alueTotrezo1 ,n1 -nZJZoJelseDl,irr uu uuzrłrtzląe1slmśzcoeleru1srIIeZet'ecloz1Y\ eule8ez.łsopeu npó18z.tr az ślrczpneldstsef (6.7 ąeuns,ft)qcfuern'(prmezld Tc'oueł\ uepóI8zł\ pser sar1,{16
i
Jest to równanie, którego możemyvyć do szacowania i przewidywania wartościodzywczychnowychrodzajów płatków.Za|ózmy naprzykład,ze jestdostępnynowy rodzaj płatków śniadaniowych,których porcja ma 80 kalorii, 2 gtamy biatka, nie ma tłuszczu i sodu, ma 3 gramy błonnika, 16 gramów węglowodanów, nie ma cukrów i pokrywa 07o dziennego zapotrzebowaniana witaminy (podobnie jak Shredded Wheat). Wtedy przeodzywczato55,9 _ 0,2f5. 80 + f,88.2 _f,00.0 _ 0,0546.0 + widywanawartość warf ,57 .3 + 1,08 . 16 _ O,8f3. 0 - 0,0514.0 : 68,6f przy azyciu niezaokrąglonych jest niezwykle przewidywanie To Minitab. tościwspótczynników dostarczonychprzez bliskie właściwejwartościodzywczej płatków Shredded Wheat równej 68,f359, Zatem btąd szacowaniato y _ } : 68,f359 - 68,6f : _0, 3841. oczywiście szacowanie punktu ma wady analogiczne do tych z przypadktl prosĘ regresji liniowej, Zatęmrównlez możemy zna|eźćprzedzia|y ufnościśrednieji wartości przedziaŁufnościdla średniejwartościoddla regresji wielokrotnej. Możemy zna|eźć. podobnych do Shredded Wheat: zywczej wszystkich takich płatków (o właściwościach 80 kalorii, f gramybiałkaitd.) na poziomie ufności957o jako (67,9I4, 69,3f6). Przepodobnych do dział ufnościdla losowo wybranego rodzaju ptatków o wtaściwościach poprzednio,przedział (66,475,70,764). Jak ShreddedWheat na poziomie ufności957oto ufnościdla losowo wybranego rodzaju płatków jest większy niz dla średniejwartości. Następnie omówimy dalsze wyniki regresji wielokrotnej pokazane na rysunku 4.10. WartośćR2 równa 99,5vojest niezwykle dlza, prawie równa maksymalnej wartościR, równej IOOvo. To pokazuje, ze nasz model regresji wielokrotnej przedstawia prawie całą zmiennośćwartościodzywczej. Błąd standardowy szacowania s jest równy około 1, co oznacza, że typowy btąd przewidywania wynosi około jednego punktu w skali wartościodżywczej, a blisko 957o (napodstawie rozkładu normalnego btędów) przewidywań będzte w obrębie dwóch punktów od aktualnej wartości.Porównajmy to z wartościąs równą około9 dla modelu prostej regresji liniowej z rysunku 4'5.Uiycie większej liczby atrybutów w naszym modelu regresji pozwolito nam na zredukowanie błęduprzewidywania o czynnik równy 9. Zauwazmy równiez, ze p-wartości(pod literą P) dla wszystkich zmiennych opisujących są równe zero (wtaściwiesą zaokrąglone do zera), wskazując, żekazda z tych zmiennych, w tym węglowodany, na|ezydo modelu. Przypomnijmy sobie, ze wcześniĄ okazaŁosię,ze węglowodanynie są skorelowane z wartościąodżywczą,tak wiec niektó. rzy ana|ltycychcieliby wyeliminować tę zmienną z modelu opartego na tym odkryciu. Jednak,jakwspomnieliśmywrozdzia|e3,często najlepiejjestzostawićzmienne wmodelu, nawet jeżeli EDA nie wykazuje oczywistego zvtiązkll ze zmienną celu. Tutaj w9glowodany okaza|ysię istotną zmiennąopisującąwartośćodżywczaw obecnościinnych zmiennych opisujących. Wyeliminowanie tej zmiennej jako zmiennej opisującej w moct odżywczej dla płatków podobnych delu regresji skutkowałobyoszacowaniem wartoś odległąod wartościwłaściwej bardziĄ (równej wartością 68,805) Wheat do Shredded Ponadto, model bez aĘmodelu. naleza|ado 68,235g,niżgdyby zmiennawęglowodany najmniej się podwoita co s bllttt węglowodany miat zmniejszoną wartośćRf , a wartość do wartości2,39 (nie pokazane). Wyeliminowanie tej zmiennej z powodu pozornęgo brakll związku na etapie EDA byłoby błędem zmniejszającym funkcjonalnośćmodelu szacowania i przewidywania. i niekorzystnie wpływającymna dokładność
LelzpBmśZldulfl .ĄĄsues ?uo ulu fz3 ćl|ser8ar|e]sordulueu1'rgJz euelnśzBo{ Łrso z elcÓtcezld ezceuzo o) .7I 9'ouułr .llsar8er .erue1,(qceue1luuśzcłgds.ĄA .t |e1sordz o?auzulśzr1o 99ouem [u;e|qo t .61 6t[ser3er|e1sordeIuBuł\gJ1se|eqe1 .nq{elnrc1spod eu o>11t|13utpł eIuBĄ\o3BZso op llser8er qc,{łro1aure1ur |ttvn.q4bp1 qc?uołs eu órs o8ect|np|euzSIDarac qcńuup ruoIqZ |Kzn qcetuezcln9 qcńzszruod 16 euzcdl4u.rd BluozJ!^rJ .nlueu^toJurńzszń't.rod A..08I_.. eIUeZceUZ ftu9ul,ilnerupe11oq (e .nlueu./Y\oJ ur'(zsz'fuvrod Id ,,g,, elllezceuz ftuge|,tlłerupe14oq (p .lłIu .II€3 -'{łr .IIec op |n1ueuołs 8' eIc9oJZlĄo u]uepnlsó8ełr |ncuzso s, 09 po elc' -oJz,ĄA o ł\91uepn1s ecqgrd uu e1"redo ełe$oz l[sa.r8e-l e1soldezszśnod ez,,ślnz91e7(c p?en o8e[ 1se[eąuI .ntSoJZ./K elu ]uepn]s śuepaz ,knzgtre7 (q tIBc 99 LezpeM M eclluzoJ eue.t.rńp -lnezldetzpÓqe>luf .eIPc o o8er8rup po Kzsztn1se|1uepn1suepe|az,Ńnz9p7 (u E
-Kn śzeu!\g'unJ g) snld(.tt91ung lse|eaervr 08I_) uu'i!\-oJ
"'"^"#l]Yłi#'.:T: -ord Łc?|ndó]seu'(ru9qeur,|ząol r|ser8erózt1uue.(urgqlzpełro ldazl4.nlsoJz1( qcl aI.Ą\ -u1spod€u ^\g]uopĘsr8ełr rueruułr.'(pt,t.ezld ruu,tłosolelulez,turge1se| ez,ślllz91e7 .6 .€ł\Ic9uł.ĄA euo ]saf qc'(u:uellulznd& o8errlu|u1pr r|ser8al śzl1eue ',(ruełr,tzno?ezce1p.tru9e|'{16.3 .ezsde1 io?azce1q 11evpazld K1eulKzc 1evpazld ńznp 1se| oJ .Ic'ouJn n1wpezld Łlcgo>11elłr u qqgrd IuaJ?IIuZoJ'&pórulod nezblnz 1(9tuo .l .lllśuvzblnz
{ulrr Z lc'ouJn rueurorzod 3 IJ9ouJn n1elzpazld blc9o11erłr .{zpórurod nezbt1llizł\g{uo '9 Lnptłq nsaut3lpw eIUeZcvUZlseI en1u1 .€TuB.ĄĄołq9Jdnpóp urcó|od ,1aze3 z qnl ?Iuezcpel^\9op o8euse1łr z,petrańzld |epo4
's 'v
'o8euzc.{1s.&uts .g Blue./Y\oąsolu^Ą\ Bltl?'i\Ąoso1sez,1ezea Z qnIerUeZJpBI.ĄA9op o8eusetr.t z,pe14śzld |epoa .qc'(uepr|curo1ds1eo qn1ec'(1sĄe1s qz?ru1 o arua1(qcpoercó|od eIUeZceUZilugut'(16 .7 1e1izc elu,{p8tu 'trgq.rrvro1ru1aĄĄoptupuD4s 'nTnztzot ,(mrurbs eue8eruńłrqcńuup luolqz errru.tł.',{,tournspod suzcpod ołezce1p.[u;e!'tlvl' .t
Pruezcrnc'wn .& 'y4'q3-rnqs1t14 ttrsre'rrun uoilew el8eu.ru3'TSVO/npo' nuc' {.,to|g pun oruq [7] fpls'qrLrv\M/v\'(totq1T 'v00zepeueJ'ou -B1uo .oluoJol .eIoJ-S{ooJg,SJ?qsutl1y fuo1uarua1g,tqn1elJlłed
.uosutłof geqog
[1]
.e .ffi PJnlPJoł!.l t.'
13. Jaki jest typowy błąd,jezelrido przewidywania ratin7 używanyjest ten model? Jaka statystykajest używana do jego pomiaru? Co możemy zrobić. aby zmniejszyć Szacowanybłądprzewidywania? L4' Jakbardzo nasz model pasuje do danych? Jaka statystykajest używana do tego pomiaru? ci odzywczej płatków z 3 gramami błonnika. I 5' Znajdźpunkt szacowany wartoś 16. Znajdź przedział'ufności dla średniejwartości odzywczej wszystkich płatków z3 gtamami błonnika na poziomie ufności95va. I7. Znajdź ptzedzia| ufności dla wartości odzywczej losowo wybranych płatków z3 grarnamibtonnika na poziomie ufności95vo' rating wzg|ę18. Na podstawie wyników regresji,jak bgdzie wyglądałwykres rozrzlu1uJ demfiber? Dlaczego? W poniższych ćwiczeniach:uŻyjregresji wielokrotnej, aby oszacować rating na podstawie fiber i sugars. 19. Jakie jest równanie regresji? 20. objaśnijwartośćotrzymanego współczynnika przy zmiennĄfiber. 21. Porównaj wartośćRf zrcgresji wielokrotnej i regresji przeprowadzonej wcześniej w ćwiczeniach. Co się dzieje? Czy to zawszebędzie się działo? 2f. Porlwnaj wartościs z regresji wielokrotnej i regresji przeprowadzonej wcześniej w ćwiczeniach. Która wartośćjest preferowanai d|aczego?
.^\gpelsŁsqc śzsn1q|eu.7u4ńro31er e'ĄeouoJneurcers .eulńzńcop e./Y\aZJp rud] łr .lu,{uBłrolozpeu lluBpo]eur Łs .l op s po qcełelź]pzol ivr'tutłrgruo er9lą .r|c€)1g,(sep1,(po1erue14s'Łs16 .x BJoDIaA o8euup u1p ( nuelc'ou€'ł\ rur'(uułrfpr.tnezldeK nuulcgoue^\rul'$ .{zpórurodlc9o13e1po1erpuzYu1 elnzq -€Iulunu d;9lą .lrrgturpem4qcńzs|e1uurfeunu4'fio81ee1p( fe.troąru,{rYr |euuerurzIc'oue^\ eue.ł\o,ł\Jesqo euBp ts z.ułreruod.rul,{ue.łrolozpeu nu€poleu bs 7 nqlzpzor z r|ser8er'tp .qc'{ct|nsldo -o1eur pe14,{z.ld e5 qc'tuuerurz IIuBIc9ouu.ł\ nuńrgq z euezblmodbs n1ec .n1ecfeuuerurz?rcgopervr leuuerurz IJ9ouB.ĄA ergtą .óls cśzcneutr89urru1'tro8p ńqe >1e1 bueuz ez łtgpe1ą'(zrde1er,,vr qc'tuup (7) r .n1ecuuueiluz €uolgeĄo 1se|euep (D eq 1se| ,vzceuzo oJ .ouB,ttoJozpuu'(po1eru łeupe! o1 qcńuup l|cero1ds1epoteu c9ozs1ór16 ' olvrzpzor .u rurfuf,(celcose OI rure1n8arórs 9ułrouiuz KarevpÓq 'tp8 '{uleuo>1ezrd órs an(zc o.nure1qord o3e1opbzp ,tlol.td y rupfio81e>Iu|eqel tul1fuo8p -oqcpod elu]ń-lds eu.tred.|eruurer5 .;|cuqqruoą qc'fuvro>1ru'trvr qcrĘsńzsłr Kqzcl1n1soJz^\o8eu.uo1płr8 npo.tod z a;nlnepez rufct|ecóqc -eruz trr94ńlmz eTIIDInZsezlde,śTepezlds.łn qc'tudfis 9Kqazoul ąc(ml1zou qcry1s,tzs./Y\ -op zKg1q'(u? vqzc\ erc9r.tł.(zco tse|rueuelqoJd .n1ec|euuerurz[euo19er4oulu elu |elnl nąped'tzrd ur'(] .t.r|,;JJeZeJts auerYrodną'Ęnąń1reelgĘ.. ńuu.tt.osereluIez }śqazouI'oDI .buełlolozpeuelu I qc'{łrodru1ezzvr-oą'Łso>1 alz:4wJe .qc'(u|dcu|cosep8er eluezJołu o1 11 .qc'tuep >1u[.tuełrorozpgu ?po1eur ou1ńgJBZ c,('qazoln elg]ą Bpo}elu BuuI 1|curo1dsąe 'qcA.Ą\orrrBPIeJ r ^zsnpunJ?ru .nIoJ lauuerulz -ehlqz qculeJ łr qcńct|nso18 n1gord o8eupep4op elueuzod op rur'(cbzn1s |euoru198ezczsśnzaq.uruerrrodn-r8 nru1'{-lo81u e1prur,furrorc9|ern rul'(uep g'(q ?8oru (9e1d .esur .poqcop .du) euuelluz etupel.trodpoeopsdzszrr n1pud'{zrd ul& ł\' .u1ep'(puu1le1 -n]sod ,tu1err1uo>1 '(uuzrrorar1svulsoz ezour qc,figDl op .ł\9cJoq'irr fdru8 eIue\zse|uIez ucs|errug'tDlpo fqu .errrełrodruBpo1eruŁcotuod ez azcrcq,|n fÓr1o vunoz|Iere ezoal '(uzc'$rlod ]ue]Insuołpep1śzldBN .6 I 8qcełe:zpzo.I,/Y1, ouol.,rroluo.etuełrodru81se|qc'(u .qc'(uuerurzqcn11sńzsrYr -up tlcero1ds>1e ?uełrorozpeuelutpo1eru buupdod |e1zpreq!u51 p9J''Y\ JĘłtu}s I 1v\gcJoz^\ e|n4nzsod qc'(uup llcuro1ds4e u4,{.lo31eo8e] lserurez .n|aJ Euuelluz uuuzu'oąg,.fiueplz Błel oąul eleru1sreru qefuu/tAoJozpBuelu ltrJBpoloul 1K .au -?,Ą\oJozp3uoluI eue.Ą\olozper'(po1erueu 9qelzpod Bu?olu qc'(uup llcero1ds1e ńpo1e6
.l.9 ..||.... ouPthoJozpPuolu I euBmotozpPu ńpolol,l|
qcńzsł|qlPu.ł filgpPlsbs tuilJooM
'{
s.2.Metodologiamodelowanianadzorowanego
Większośćmetod nadzorowanych eksploracji danych używa nastgpującejmetodologii podczas budowania i sprawdzania modelu. Najpierw dostarczanyjest zbiór uczący danych, który za,wieradodatkowo oczekiwane wartościzmiennej celu dla danych zmienjesteśmyzainteresowaniklasyfikacją grup dochonych opisujących. Na przyL<ład,jeżeli naSZalgorytm klasyflkacyjny będzie potrzebował płci i zawodu' du na podstawie wieku, duzej |iczby rekordów zawierających kompletne (tak pełnejak jest to tylko możliwe) informacje o każdym polu, w tym o zmiennej celu - grupie dochodu. Innymi słowy, rekordy ze zbtorunczącego muSZą zostaćuprzednio sklasyfikowane..Ęmczasowy model eksploracji danych jest budowany Zapomocąpróbek lczących dostępnychw zbiorze uczacvm.
,/
\
Rys. 5.1. Metodologia dla modelowania nadzorowanego
Jednak zbiór lczący jest sitą rzeczy niekompletny.,to Znaczy, nie za,wlera,'nowych'' Ilb przyszłych danych, które twórcy modelu rzeczywiśctechcą sklasyfikować. Dlatego tez algorytm potrzebujeochrony przed ,,zapamiętaniem''zbioru uczącegoi ślepymZastosowaniem wszystkich wzorców zna|ezionychw zbiorze UcZąCymdo przysztych danych. Na przyktad może się zdarzyć, że klient o imieniu ,,Dawid'' w zbtorze lczącym moze na|ezećdo grupy o wysokim dochodzie. Prawdopodobnie nie chcielibyśmy' aby nasz
-epolu elueł\opnq s€Zcpod ...IuepI^t3C., z ezpełĄśzld ulśzszś'nod.t.rąe[ ąet,ulńcbzcn eZrcIqZ łr órnp1ru1sqnl pue.ł fłrqzour śpTe\,9rupó18złrn etnqgrd lepou '{,t.rosezcur'$ ńp3 .eie1słrodeluezcnezl4.o?ecbzcn ruoIqZ op nlepoul o8ełrosezcur,{t(uluozcnazrd) u1uu'uosedop o8aure1upeu npołrod z o1s6zc,anścbzcnaz;;olqzeu ł€| tu,tuf'{cep1e,t.r qnl ur'Qvro1se!ezrcIqzEueznpłet ]se|aru nlepou o3e.tosezctu'$ 9goupup1opap1ś1fr7 rufulf,cup
-||e1\\ ezlolqz eu npó1q lcgoue,Ą\|eu1erururur erc>1und .tr1se|n1epourIc'ouozołz uorzod .{qeul.Ęd6 .z.s .s.{u nlepou 99ouozołz 0ruezJnoperu
€ ! N
-
rufui'{ceprp,r ezsorqz ua pblq
@
rc9ouozolz fqeuĄdo
.1.9 nąuns'{reu ''(uuze4od ]se|qc'(uep rlcero1ds1eleue'vroroz -peu n1pedfz.rd łl eruern,oleporu nsecord o3e1s'{-lez'(u193g .II e|evpzoJ .ĄAeuol'i!\gluo plTutłco1 bs n1epou r|cunp.łł'e er1u1 'o3eu[.(cepll31vr ruoIqZ op qc'(uełrosolsez'(ueco rurur ląc(uzgl er,tł.e1spod 3u euoz3llqo )vłsoz ezour qcńuup qc'{ueuzeru,qcś1zsśzld łr n1epour eillełelzp elu€'ĄeoJ€Zso .ru'(u|'(cuprle M eznolqz eu npó1q ryuuńzc;gdsn cśzstaluuruśqe tuurłrurdod 1se|1epou 'tuełrosedoq .rueleporupezrd e1'tqn o,toII1KIłJnł\ouz ts n1ec leuuarurz Ic9ou€.ł\ erzp8 .qc'{uupruoTqZn1uau8ur; o8euur .qc,(uepruoIqZ o8au[dcup .;1ułrr|cu4gńse14op erudó1seuórs e|nso1sqc'{uep 1|ce:o1ds4e Iepou ńuełrosedoq . .III^.^\o]se] eznlqz Bu npołq{uu^'Zc -trgdsm9B^\oZIT€IuruunzKqe.^,(uu.tl'osedop sez3ł\9^\1se|qcńuep t|cero1ds1e1epoul,tłros -ezxlś7.n1ec leuueruzlu;r-lc,oplrr rur'itrc9uł1(Z elu€u,trglodzazldellelueoo erudó]suu 1se|l|ca1g'(se1ą 9gou.ttfp1s1g.o8ecbzcntuolqz az ul(lleuzod bmplruls I||IIal.IIZlr.eZ ol:u -po8z ó[cz1g'(sep1e[nuo>1ńm ,ftgq .n1epouro8ełrosezcruĄ e1pe1't.qnoł\oll^\qcbs n1ec .qc'tuup ur'ilro]sa] ezrolqz leuuerurz lc'oilP^\ .qcńuep ruoIqZ ure1ueru8erg lse| 'ftgĘ ^!| .qc'(ueprud'llo1se1azrc|qz eu ó|ceąg'(sep1zezłdodnlepou o3o^rosezcu'{1etuezpłrzrds leue.t.rorozpzu u8o1opo1eur^\rueDIoDIluńudó1seuza1o?ap1q 1se|qc'(ueptlcero1dsr1e .IuaruezoJp1K pazłd śuozpnerds n ńu cu1soz Isilu I uścbzcnezlolqz .olupeseznaT.u D{aJ ur4os,(łr o 'tdru8 op śze1eu o1 .pr.teq órrur 1sefJeznozlr^ ...elzpoqcop Bu BIu luolpt łeZeI,, )ezlozt^ p1órured qc'(uep qc'tłrou op '(uezrroso1sez Iepou '(trocgo>1
lu jest nieustanny konflikt pomiędzy złozonościąmodelu(skutkującądużądokładnością modelu na zbiorze uczącym) a zdolnościąuogólniania na zbiorach testowym i walidacyjnym. Rosnąca z|ozonośćmodelu, mająca na celu zwiększenie dokładnościnazbiorze lJczącym, ostatecznie i nieuchronnie prowadzi do zmniejszenia zdolnościuogólniania tymczasowego modelu dla zbiorów testowego i walidacyjnego, jak pokazano na rySunkT 5.2. Rysunek 5.f pokazaje, ze gdy z|ozonośćtymczasowego modelu Zaczyna rosnąć od modelu Zerowego (z ma|ąlub zadną z|ozonoŚcią), współczynnik btędu zarówno na zbiorze nczącym, jak i walidacyjnym maleje. Wraz ze wzrostem zł'ozonościmodelu współczynnik błęduna zbiorze :uczącymutrzymuje monotoniczny spadek. Następnie, wraz ze wzrostem ztożonościmodelu, współczynnik błgdu Zaczyna sig wyrównywać i rosnąć,poniewaz tymczasowy model zapamiętałzbiór uczący zamiast zostawić miejsce dla uogólniania nieznanych danych. Punkt, w którym wystąpit minimalny współczynnik błędu,jest wartościąoptymalną ztozonościmodelu, jak zaznaczono na rysunktl5,f ,Złozonośćwigksza niż optymalna jest lwazanazaprzeuczenlo-złozoność mniejszaniz optymalna jest uwazana za niedouczenie.
ni0W0.Wa 5.3. Komp]omis obciqże riaoyiny ffi;:.';....:. Za|ózmy, zemamy dany wykres rozrnJtanarysunku 5.3 i jesteśmyzainteresowaniskon. struowaniem optymalnej k;rzywĄ (lub linii prostej), która oddzieli punkty ciemnoszare od punktów jasnoszarych. Linia prosta nazalętęmałej złozoności,ale ma kilka btędnych klasyfikacji (punkty znajdującesię po ztej stronie linii).
Rys. 5.3. Separator o małejzłożoności i dużym współczynniku błędu
Na rysunku 5.4 widzimy redukcję błęduklasyfikacji do 0 kosztem dużo wigkszej złozonościfunkcji podziału (krzywej). Ktoś może sig skusić i wybrać większą złozonośćw celu redukcji wspótczynnika btędu. Jednak niena|ezy polegać na specyficznych cechach zbioru lczącego' Załózmy na przykJad, ze tetaz dodamy więcej punktów do wykresu rozrzutu, otrzymljąc wykres na rysunku 5.5.
-nqz lsa| uoloJ .elu9oJ u|ouerleł\ep .elol€lu lllścb,zcneznolqz eu aluezblcqo nlepou |c1ouozołzue]soJz^\ez zeIN\.7.9 n4uns,ft eu o?eueze4od eruezcnope|up|Uezcnazldr\ .(go -eure1'(perueł\'(srdorueqosods urńuur '(u|dceuuzrr-ołrorueztrcqo srurorduro>I lsel -apuJl aJuDLlD^.sqlq.Bue),(u[fcu1"ru,n.o,tłope7t1cqosgro.rduo{ o)p| ouvuz o] ]sef .ólcuerre'vr ,aluazblcqo b1eul eul o1 e?np BIu lcgouozo1z |atreano Iepou ]e^leu l1eze|e 2(acuouna'.8uu) Ófeuu.t.ten bznp eln ,(ult{icb,zcrl ezIoIqZeu npóp u1luu,fuctrgdsł\ruep -ó1?znpod) (solq.8ue) e1ue7tpqo ałeul€ru lc'ouozog |a4npo Iapou qezel1e,tre51 ')tcuottou bznp eUJIc9ouozołz|e7npo ro1urudesev,o1eu e|nza1słrUeyJIzgreldo1s1ąos'ilr uaJ, .np ,ocbzceuz -ó1q fu1ellze>1selu |9łrs ryuudzc1gdsłr 9ew/:zqn ecqc qeze| ?Iuela:z órs rsnru ,enf.zł1 ,lcgouo?o1z .łBupef .)[cunuou' b1tlul ulll |c,ouozołz |e1eulo |e7np o ropredes ropredes uel eZ ,EZce|JZoo1 .qc,(uep 'rrgl4und qcńłrou op óls 9e.toso1sńzrd'tqu .9ru -elalz ozpleq órs rsnru etu (ąsord uruq) rcgouozo1z|e1eulo roprudes e7,,śulenne7 uerurz qc,{znp elnqezr1odIc9ouozołZleznp o ro1eredes ,?elue|uv ozpJ€ q óIs Isnul elu Icsouozołz fe1eruo roleredes :qc,(uepfqzcr1 lezs1órłr n1ped^&rd16 .s.s .sdu
E\
e
npó1qru1ruu'{zc1gdsm ur,(1euI lcgouozołz|eznpo ro1uredes.'.s .s'(u
dowanie modelu, w którym ani obciążenie,ani wariancja nie są zbyt dlze, ale zwykle minimalizacja jednego składnikapowoduje wzrost drugiego. Na przykład, najbardziej popularną metodą oceny dokładnościoszacowań modelu jest użycie Mędu średniegokwadratowego (ang. mean-Sqaurederror, MSE). Z dwóch rywalizujących modeli mozemy wybrać model z mniejszą wartościąMSE jako lepszy model. D|aczego MSE jest tak dobrą miarą oceniającą? Poniewaz łączy on zarówno obciązenie,jak i wariancję. Błąd średnikwadratowy jest funkcją btędu szacowania (SSE) iz|ozonościmodelu (np. stopni swobody). Można pokazać (np. Hand i inni [1]), zeb|'ąd średnikwadratowy moina wyrazić za pomocą następującegorównania, co oczywiście wskazuje na uzupełniającąre|acjępomiędzy obciążeniemi wariancją: MSE = wariancja + (obctązenie)f.
e. 5.4.Zadanie klasyfikacii Być może,najczęstszym zadaniemeksploracji danych jest klasyfikacja.PrzykJady zadań klasyfikacyjnych można zna|eźćniemal w każdym przedsigwzięciu: o Bankowość:określenie,czy dane podanie o udzielenie kredytu pod hipotekę jest dużym,czy małymryzykiem kredytowym,hb czy dana transakcjakartą kredytowąjest oszustwem. o Edukacja: umieszczenie nowego studentaw odpowiedniej grupie z uwzględnte. niem jego szczegó|nych potrzeb. o Medycyna: diagnozowanie, czy dana choroba występuje' o Prawo: określenie,czy danytestamentjest prawdziwy, napisany przez danązmarłą osobę, czy fałszywy,napisany przez kogośinnego. o Bezpieczeństwo narodowe: identyfikacja, czy pewne zachowania finansowe lub osobiste wskazują na możliwośćzagrozenia terrorystycznego. W klasyfikacji wystgpuje jakościowazmienna celu (np. grupa dochodu), która jest podzielona na wcześniejustalone klasy lub kategorie' takie jak wysoki dochód, średni dochód i niski dochód. Modele eksploracji danych sprawdzają duże zbiory rekordów, zktórychkażdy zawieta informację o zmiennej celu' jak równiez o zbiorze zmiennych wejściowychlub opisujących. Rozważmy na przykład fragment ze zbioru danych pokazany w tabeli 5.I. Za|ózmy, zebadacze chcieliby móc sklasyfikować grupę dochodu Tabela 5.1. Fragment zbioru danych do klasyfrkacji dochodu
001 002 003 :
47 28 35
Płeć
Znwód
K M M
informatyk
wysoki dochód
konsultant od marketingu
średnidochód
bezrobotny
niski dochód
qcełel o I[c€u uoJul llleluezoPu z nłeI.ĄA Iu3póI8Z^\ns?lod op npos n)lunsols nlnzJzol seDI,(lA.9.s .s'(u g luelced ,{mou
7 tuefced .{,nou
1 tuefcud .{,rou
::*, .'t.iff.".e.,i**;r.. '.8,'..::.:
,o
..
.*
*
t.a
',{,
i*'('JI'+ *
*
..),
**
q
./
&
,,?:,, & o
.:
z
,..
,
'pepIśZ]'d z(uzu,t.rzog.o8ecŁzcn nJoIqZaZ lluzpJołer rur'tuqop -od |erzpreqfuuz oruurrr.{ułrgrod zezld eueuolop oZoIII ^\opJołer qc'(uełro1g'(s 9B]soZ .,{uułr't1erureduz Kcbzcn l9lqz t|1ec -€pISeIu qcń.t.rou e[cu4gńsu14 o? ru'ftgp1.,r.r tso| ĄEt ,(8utuna1 pasqq.aJuDtsut .?uu) o8e,rtpa1 BIuazJn ruepe;ą'Łrd 1sa| ,t.rgpelsŁsqcńzs -4Ilq|eu->t ul{ro81y .erue.t.r'{prłrezld r uruu,t.roc€Zsop ś1śzn zelungJ 9'(q ezoal ze:nolĄl .r|cuąg'(se11 op '(uułrńzn]se| lercgózcteuńrgp1.(uu-ł ,.loqq3tau$ałDauł!.8ue),t.rgpu1s łs qc,{zs711q[Bu.łru1d.ro81e1se| .cer,tuuro '(ruerzpóq 'ft9D1 .ueur/ro81u ur.{zsrvr.rer6
qcńzs4lqlPu.ł tll9pPlsus luiluooM.9.9'.,: .alzpoqcop urr5os'{,łr o '{dru8op Bu€.t.rołg'{se11uz ?e$oz ńqetr8oul rosegordruud uru]e1 pep1śzldeN .uopJołer ruńrvrouó|cu1g,(sep1azstd,{zldul1fuo81e ęg ,o8ecb,zcnłuolqz ez r|ce1g'(sep1eu órs ctlererdg .eudfisop ]se[ oru npoqJop eldru8 o ulceur.ro;ulqcńrgq e1p .qc,{uupqcńłrou op alzp|ezld ur1'(ro31eerudó1se51.urńcŁzcn ruer -otqz '(ue,t.rńzeu ]se| qc'(uep Jg|qZUeI .elzpoqcop rur1os'(t o ?dnr8 z euęzblnz le$oz b8our ń1erqo{eZSJelSpe1nt|zld€N .npoqcop tdru8 t'l9u1 z euezbtnz bs qc,tuueurz e|ceu -Iquoł el9l>1...óts śzcnvlJ*(eruułrourer8ordo) ru/ro8p qosods ue1 .npoqcop ódru8 ł\ .ec?|nsldo euuenuz o:o'z:lrglaz n1ectuuerurz (tue.ł.roąg'tsup1s ścbterclnwzqcfiu ?nD I {e| -ep lglqz epeqz rnrerdle51.oc?indó1suu erzpóq nruan1qizld anrul'fio8lv tru,t.rodó1sod .qc,{uupllcero1ds1e łIuqcel I poteu op ru,(ct|nsedezrqop .r[ce1g'{sup1 Urc:n)epe,Z r 9e1d51erłrąeiqcqel .Łqoso zqcfiuezblnz ]se|eruepezoI .pg.ĄĄEZ qcElłcecqc'(uut qol 3u óls cŁ|uretdo.qc'{uepezeq M oluceqo órs qc'(cŁ|np|euzelu qgso
Przypomnijmy sobie przykładz rozdziałtl I, gdzie byliśmy zainteresowani klasyfikacjąrodzĄu lekarstwa, które powinno zostaćprzepisane pacjentowi na podstawie pewnych cech pacjenta,takich jak wiek i stosunek sodu do potasu.Dla próbki 200 pacjentów rysunek 5.6 przedstawia wykres rozrzata stosunku sodu do potasu względem wieku pacjenta. Konkretny przepisany lekjest oznaczony odcieniem punktów. Kolorjasnoszary oznacza lek t punkt szary wskazuje na lek A lub X, kolor ciemnoszary oznaczalekB lub C. Teraz załózmy, ze mamy rekord nowego pacjenta, bez klasyfikacji leku, i chcielibyśmysklasyfikować, jaki lek powinien zostać mu przepisany na podstawie znajomościleków, jakie były przepisywane innym pacjentom z podobnymi atrybutami' Pacjent, zidentyfikowany jako ,,nowy pacjent 1''' ma 40 |at i stosunek Na/K równy 29. Na rysunku 5.6 jest umieszczony w środkukótka oznaczonegojako nowy pacjent 1. Jakie lekarstwo powinno zostać przepisane ,,nowemu pacjentowi 1''? Ponieważ jego profil lmieszcza go na wykresie rozrzutu w części,gdzie wszyscy pacjenci mają przepisany lek Y, zatem chcielibyśmy sklasyfikowaó tego pacjentajako potrzebującegoleku Y. Wszystkie punkty najbliżejtego punktu,to znaczy wSZyScypacjenci o podobnych profilach (w związkll z wiekiem i stosunkiem Na/K) mają przepisany ten sam lek, co utatwia klasyfikację. Następnie przejdźmydo ,,nowegopacjenta f,,,który maI7 lat i stosunekNa/K równy I2,5. Rysunek 5.7 przedstawia powigkszony widok punktów zbioru uczącego w Są_ 1 dla naszego siedztwie i wyśrodkowanyna ',nowego pacjenta f,,. Zalózmy, ze k algorytmu k-najblizszych sąsiadów, zatęm ,,nowy pacjent f,, zostan\e sklasyfikowany zgodnie z najb\izsząpojedynczą (edną) obserwacją' W tym przypadku, ,,nowy pacjent f,, zostaIie sklasyfikowany jako potrzebującyleku B lub C (ciemnoszary),ponieważtaka jest klasyfikacja punktu |ezącegonajbliżej punktu na wykresie rozrnltll dla ,,nowego pacjentaf".
@ U
n
nowY
Ao wB Rys.5.7. Trzech najbliższych sąsiadów ,,nowegopacjenta 2'' (zbliżenie)
Jednak, załóŻmyteraz, ze k : f dla naszego algorytmu k-najb|iższychsąsiadów, Zatemnasz ''nowy pacjent f,, będzieklasyfikowany zgodnie ze wskazaniami klasyfikacji d|a k : 2 najblizszych punktów. Jeden z tych punktów jest ciemnoszary, a drugi szary, zatem nasz klasyfikator będzie musiałpodjąć decyzję pomiędzy sklasyfikowaniem jako lek B lub C (ciemnoszary) lub lek A lub X (szary). W jaki sposób klasyfikator może
ć€>pua|md uru1el-09śzc1ua|cedplel-gz :ńuqopod o8em op ferzpruqtse| o1y 'u1uefcudo3eru1e1-g9 '{rueulaz ,pe1ąKzldvuśulz91e7iKuqopod śule|nru -gep łB| eIV ..ĄAgpJo{eJ qnl npJołeJ o8euqopod |alzprcqteu óuo3e1e1 I'topJo>IaJruue.ĄĄ -ou e|nstd'Łrd łlgpelsts qc,{zszqqfeu.ryul1.fio8p qgsods ple!'Y\ .loz'tłlod ,(ulgr1erzpr16
990rc0!p0'9'9,, ćeuul ZIu.tł'Ędłtńzsąórłr 9erurńuuurrod '(qund eJgDIeIua7oul śzc.ó8ełr b.trro1eupe| .,(uulrvrod Ąąund er11sńzs'nśz3 o 9erur :4e|eqą ,elueltf.deuur ńuńzełrzol |eluz91i 6r|cułuesqofeupel zru lecórłr z aueąs.,(zne|cuuuo;u19(zcb1dureur>1e1o e99ołdelpoAIuAZJeIIu{eI . łrgpelsts n1 o i7 tsou'funey,q(z3 LceZeMZoI'{ursruurrvrod :ŁlnurleqoeDSe^DI e; .'rngpels?sqcńzszqq|uu-1 nurfiro8p bcourod ezErolzĄgt -'(sz11nlu€.ł\opnq qcścbzs(zrc.ł\ol ^\ouelqord z erg1ąslu IuBu ryze4odpep'Łrd ue1 .sep1qc'(uzgl IĄcezĄz rzpoqcod..g e1uelcedo?e.tou.. łrgpels?sqc'(zsz11q|euqcezĄzełreruod.nue1qord iqopz .ołsperu fq cru elue.ĄAoso18 .ąuupe| -blnzol elu eluu.i!\osoł8 € ł ulp eruqopod Z: ł e1q .rc9o1?elpoeZJaIIueu óts cŁ|ereldo .(J qnl g {eD ,,(ruzsouurercqund g u1uelced o8e.tł.ou e1p fqprq'{łr łrgpersbslącśzszl1q|eu->! ultś:o?p I : sl eIC',,,t ulue|cud o8e.u .9.g1 rsou'it .ou.. lvrgp?Istsqc'fusz1q|uu g nruezsąór'tłod,{ĄPI^\B}speZJd 8.9 ąeuns'(6 ,,,ęe1ue|cvdo8ezhou..tulzenzol ncgoł x/eN łeunso]s o8e[ e,rcI Lv eru ńr9q ^A (eruanygz) .3.9.s'(g
1t\9p€ I sŁsqcdzszr1qluuqcezr1 ..g e1ue|cedo8e.,lrou..
.ł IJ'ou€^l |euerq'tłrop lc9ouzelsz rvrórs eu€s IU49r,,7 łrro}ue|cednluer\Ąou.. -ldśzłdeT.lo8e1eą ez ,ślJJzalr.ne7..,7e1ua|cedo8ełtou..e1p ópo8e1eł ołB| ('trezs) y qn1 ,enazs łrgłąundqc(zsn1q bs V łeI rlre1ez'{qeprq'fur ntue,toso18uu euedo ulcu4g'tsep1 .łrgtąund -|eu qcezq Z ewp Zeł\eluod qc'(zszqqfeu qcazĄ erłre1spod eu ^(uełro>1g'(sep1s ,E: .1uupe['(qo18ourod >l '(qfp8 alueł\osołc ?e$ozł?9aI ,,zlueicud 'trhou..'(quąu1 .tfcdo z bp?eĄeu erso18ur,(upe[ od lsaf zełraruod.e?ouroderu errrełroso156urelcdo uurołtpnu'{1'Łpórulod 9u.top'tcepz
Analitycy danych definiują miary odległoścido mierzeniapodobieństwa. Miara od. ległości(ang' distance metric) lub funkcja odległości(ang. distance function) jest rzeczywistoliczbową funkcj ą d , taką,ze d|a dowolnych wspóhzędny ch x, y i z L d ( x , y ) - 0 i d ( x , y ) : 0 w t e d y i t y l k o w t e d y , g d yx : y , f . d ( x , Y ) : d ( Y ,x ) , 3. d(x, z) < d(x, y) + d(y, z). jest liczbą nieujemną i jest równa zero, tylko I zapewnia,że odlegtość Właściwość f sygnalizuje gdy współrzędne (np. na wykresie rozrzutl) są takie same. Właściwość z Nowego Jorku do Los Angeles jest taka przemienność,tak ze, naprzykład, odległość 3 jest nierównością iama jak z T,osAngeles do Nowego Jorku. W końcu właściwość nie może skrócić punktu nigdy trzeciego ze wprowadzenie która stwierdza, trójkąta, punktami. odległościpomiędzy innymi dwoma jest odległość euklidesowa (ang.EuclideNajbardziej popularną funkcją odległości an distance). która reprezentuje zwyh,Jysposób, w jaki ludzie myśląo odległościw tzeczywistym świecie : /Ittr dsur11trro,(x.y)
YT
- !i)2,
gdziex:XI,Xf,...,Xmiy:yt, |2,.'.'ymteprezentująwartościmatrybltówdwóch rekordów. Przypuśćmyna przykład, ze pacjent A ma xt : f0 lat, a stosunek Na/K wynosi xf : lf,podczas gdy pacjentB ma y1 : 30 lat, a stosunekNa/K wynosi yz : 8. euklidesowa pomiędzy tymi punktami' jak pokazano na rysunku 5.9, Wtedy odległość to: dturua"or(x, Y) :
(f0-30)f+(If-8)f
: V100+ 16: 10,77.
V
z 6
wiek
Rys.5.9. odległośćeuklidesowa
Jednak podczas pomiaru odległościpewne aĘbuty, które mają duże wartości,tak jak dochód, mogą niwelować wptyw innych aĘbutów, które są mierzone mniejszą ska1ą,tak jak lata gwarancji. Aby tego uniknąć, analitycy danych powinni dopilnować nor. malizacji wartościaĘbutów. Dla zmiennych ciągtych mozna użyć normalizacji min.max lub standaryzacji omówionych w r ozdzia|e f '
IJ9ouI98o ł\ .uePlol1( z |fl./.llJezbrfu\od qgroqc nąpedfzrd '\\ ł€| .euolupesezn ?,|q e? .euztzc4óul -otrr qJBIJ9ouZcI1o1o qc'(u.t.red o] 16 6euolup?sezn óIs IJ e|ep,(.tro1,śz3 llllel-Oć zlu śuz(zczótu o3etu1e1-09op |elzpleq śzelgg u1elqo>1 eru1e1 1se[ ..euqopod.. -gg .ńłro1sr.ulfuu1.B]elqołurutel-gg zlu Kuzśzczóruo3etu1e1-0spo ..'(13e1po.. |epprcq śzel gę $e| euzśzczóurru1e1-g7ez .'turg'(qrTIZpJaIA\]S unłez.I : zI + z(os _ os) : (J.V)p eu'/K9Jlse|Jr y rure1ue|ced Kzpóull99o13e1po e,Og: zOł z@z_os) : g y (g.V)p € u ł\9J r nue1uelcud 'tzpólruod fpel1v\ .>1aul,buualanz cen 1so| 99o13e1po -ozI|euilouz 1eruurodez,{ul9'(qfp8.o1u1s órs 'tq oc ..tł,reld|eu Klazceqo7.n91ua|ced{ceu -Iquołqc'(uuruIPI : (zK,zr)au7gll0: (zt,zx)eu49r'(ureur.g lV łrg1ua|cudcŁ|nu -'Ą\gJod'(zx,?ałĄ tłlolc9o4u[ŁuueIIuZ bupe|r(tx,ła!u)b1?blcbuuaulz tupe|'(uu1q
3łeIqoł euzśzczÓul euzlzczóan
ŁL(,,L9 L-:
€ .0 :
9I
sż_09 9I 9b-02 9I 9r-09
8 ' 0 : 0s 0 r -09 0t CU:
8 ' 0:
oroz 0s
0I-09
V
OE
g
07,
J
0s
vail
rc1dr ru1elłru1pqcduuerruz lJ9ouu^11.z.sBIaqBJ
.Z.9 lIaqeł.ł\euPJqeZ€S (s4aln) [cvz(npue1s r (NIłIWryaln) xuru-ururr|cezqerurouod nuerc9oyeM z lloiezelqc.(uep Icgou€ 1 ń e.to41Łzco4.Ęa1qo>1Łlu1e169 a1tuelced g 1ue|ced e,buzśzcvóul unu1al-gz 3 ,buzńzc7Óul unulel-gg alzpÓq .9I ot e.ĄĄopJzpuels erue1fqcpo e,W| 9v V luelced qcolN rsou/(1lrBTupeJ9.1BI0I o] eul€Iulullu ?'ouułr .gg rsou'(1lrSeĄ€Z Yatu |auualuz e|p aZ ,śulz91e7 ieryuelced elu1al-gs Kzc 1ua|cedv1el-o1 :eluefced o?eru1e1-69op ńuqopod |aqpnqłse| otx :etue1'(dezs|arusezcłrezsevr-lu7pel.tłodpośulvpteuz.pe;ąńzrde5 .n1nq'fi1e .lr) o3e1-l BIp ('tr \aśu4glŁłrossprpne órerur b,zszńnod9ldb1sez'(pe1m'(urezoyg.qc,(.t.rorc9o>1uIqc'(uuenuz rrIIEI3'oue^\ bs lK l lr eIzp? .n4pud,tzrdruńułrtcozrd,tr .l l ,tt: lr tp? .ol : \:L':x)euqgr :qgsods'bt|ndótseu ^\.1ń9pJo{eJ'(rud 't.r91nq.{4e IJ'ou?1Y\qch-! erueułtorodop tue'tńzn ,,,po eUzOI,.ó!c{unJ furazour 1surur ??^\olugopz -eZ.EMIc.ełlł łse!eru rcgo18e1po € J uIIu u/ńosepĘInaqc't,tnolc9o1ul qc'(uuerurzu1q
(x) p
- x (x)Brupert (X)up - (X)xuru _
(x)ulu - x
:*X
:ufcuz,(rupuulg
(X)sar{ez X)uitu : X
_
v *n
:xuru-upuufcuzl1uurolg
jednak mozna stwierdzić, że dwóch męzczyznjest do siebie tak podobnych jak dwoje 50-latków. Problemem jest to, ze zmienna wiek mieruona jest na większej skali niż zmienna różne(xz, y2). Dlatego, aby zIiszczyć tę rozbiezność,stosujemy norma|izację istandaryzację zmiennej wiek, jakpokazano w tabę|i5.f, : ! acjentów Następnie użyjemy wartościznorma|izowanych, aby stwie!ŁŁktóry jest bardziej podobny do pacjentaA. Mamy dltltN(A, B) : /(0,8 _ 0,2)f ł 02 : 0,6 i d1ayp(A,C) : /(0,8 - 0,8)2 * 12 : 1,0, co oznacza,żepacjentB jest teraz uważany zabardziej podobnego do pacjenta A. W końcu użyjemy wartościstandaryzowanych,aby określić'kóry pacje"ilest bar: 2,0 dziej podobnydo pacjentaA. Mamy ds(A,B) : f10,33-(-t,67))zagz i ds(A, C) : /(0,33 _ O,33)f ł If : 1,0, co oznacza,ze pacjentkaC jest znowu bar. dziej podobna do pacjenta A.IJzycie standaryzacjizamiast normalizacji min-max zmieniło naszą decyzję co do tego, który z pacjentów jest bardziej zb|izony do pacjenta A. To podkreślapotrzebęzrozumienia używanegorodzajll normalizacji. wartośćpo noImaIizacji min-max będzie prawie Zav{szeleżałapomi ędzy 0 a I , tak j ak funkcj a ,,rózne,,. Standaryzacja,jednak, zwykle przyjmuje wartości_3 < z < 3 rcprezentującewiększą skalę niż normalizacjamin-max. Dlatego moze, gdy zmienne jakościowei ilościowesą mieszane, preferowanaj est normalizacj a min-max.
decyzyina 5.7.Funkcia ffi;,;:,,. Teraz, kiedy mamy metodę stwierdzenia, które rekordy są najbardziej podobne do nowego niezaklasyfikowanego rekordu, musimy określić,jak wykorzystać te rekordy, aby zapewnić decyzję klasyfikacyjną dla nowego rekordu. Potrzebujemy zatem funkcji de. cyzyjnej. Najprostszą funkcją decyzyjną jest proste głosowanie.
glosowanle . Proste 5.7.1 k, czyli ile rekordów będzie de. I.Przeduruchomieniem algorytmu, określwartość cydowałoo klasyfikacji nowego rekordu. 2. Porównaj nowy rekord z k najbliż'szymisąsiadami, to jest z k rekordami' które od nowego rekordu w kategoriach odlegtościeuklidesowej mają najmniejszą odległość lub w dowolnej mierze wybranej przeztzytkownika. 3. Gdy t rekordów zostałojuż wybranych, wtedy odlegtośóod nowego rekordu nie ma już zflaczenla,przy prostym głosowaniu'Po prostu jeden rekord' jeden głos. obserwowaliśmy proste głosowaniew przykładach na rysunkach 5.4 i 5.5. Na rysunku 5.4 d\ak : 3, klasyflkacja oparta na prostym głosowaniuwybrałaby lekarstwa A 1ub X (kolor szary) jako kategorię dla nowego pacjenta 2, poniewaz dwa z trzech najbliższych punktów Są Szafe. Klasyfikacja zostałabyzrobiona dla leku A lub X z uf. nością 66,67?o,przy czympoziom ufnościjest reprezentowany ptzezliczbę rekordów z wy grywającąkategorią podzieloną ptzez k . Z drugiej Strony,na rysunku 5.8 dla k :3, proste głosowanienie zdołatobywybraó oczywistego zwycięzcy, ponieważkazda z kategorii otrzyma|ajeden głos'
.8I8 - zt6t,00.0 _ z(V.ń'vrou)p _ (,fiezsouurerc),(so13 I9 II '(ułrgr1se[nro8e1al|e1BIpso13,(uozułr:orlaluz.(Jqnl ńqe .e[nso1?(y) pro>1er uepe1 ąe1)'fiuzsouulerco4e|pJo{eJ,{łrou9ułro1g'(su1ąs n6L7'0 ZI6I'O ILVZ,O só ('
LI60,O € g s0.0 L9n0'0 90'0
sŁ 9'0 vc >(,
so Z,L 8'9 L
(tuezs)3 (f;ezs) g (,&ezsouurerc) y ń.tto5 .DJoXgx
l.s rupns^JZ 't9pJołalBIpxreN łaunsolsl łel^\.€.s uleqBtr
.rc9o13e1po qcl n]BJp€^D1Łrcgou1orłrpo z erupo?z euoz?ł\ 3s .trrgpro>1er qc'(1'tso19
'zzjrs}'0: - 90.0) _ (3.ńłtou)p z(l6LZ,0_ 9Z,O)ł z(LI60,O - (g'dtrtou)p zktst,O * 9Z,0)-| z(€ E g0.0_ 90.0)
.€68890.0:
, .'ivrou)p E6E7OO,O: z(I Lv(,,O_ 9T,,O)* z(LglO,O _ s0,0)ł : (y
:ectlndłseu ts nproąer o8ałroupo g .V ł\9pJołarrc9otr8e1po '(pel^& J I .zvrgtnqd.4e .€.s rleqel ^\euerqezŁs qcń1 lcgogełr eIm^\oZq€ u uoIIZ EIeI/^ez ZeIu^\9J BJgDI qc'(uełr'{.qudzor rc9ogz.t.rez,Kulz91e7 XlDN )punso$ I)p\AĄm91nqń4e?Ip 1Y\9pJołer ;ńpro1er eruzs azs|etuZ)I| z|a łr'ĘÓlr'(zsąólłr łerrupJołeJ,fuuzsouurerc ńqe ,Kzcre1s'irrołr1zpersŁsezsz11qo1 śz3.'(pro>1er e.ĄApołu]Sozodzru |e71q tse|,(rezsou -uelc pJołeJ łuupel .tlezsouuerc ógo8e1eąeu so13uepelt hezs óuo8e]u>l€u ńso13e'rrrp .'(urgllezplłr .eruełroso18 .ferugazc7y1 ..trrgpelsts ś1śqez qc'Łs o8etsord '(u9qełrfzn '(p3 -up|eu g - 7 nurlfuo81eŁcourod ez (e1aa|ced)npro1er o8ełrou€Ip n>IoIruo3e1e>1 ureru -eIZaIEuzIuu^\oseJelutez '(urge1se[ evp?,g.g >1eunsńr ńruze.tzog .pep1izldeu '(ruzr[9d5 .ńue.to1g'(sepls .nproąer o8ełrou po fquuo|c npJo{eJ rc9o13e1po op 9u1sozeul frgq -rodord elu]oJmpo łrgproqer qc'(u1g8ezczsod łrĄdłr ur.,(uo?ułr nruułroso18 1se| 11 ',{uqopodopivrurd feruur1sa[srure.r ez ,Zelufu\gle|npołrodouo?€^\ elueł\osołg .13e1po rzparsts zru bu|ńcu1g'(sup1 |e1zpreq 6|zścapeu .t'{1dłrńzsąór.t.rŁ|eru rzpars?s Is?uq elzp? ,euoqełr oTue,ł\oso18 9ełroso1suz .'{-ruzsouluelc t8oul '(c'$1euz o?e1$eilIez.elu ezotr^tr ćnpJołeJo8ełrou |e71q lse| 'figq pJołeJ >1u[so13 IuBs IłB}eur ńrezsouse| pro1er .{uopppo ez .e't.rr1perłrurds o1 1se|,{zc .g.9 n1uns'ft eupey4śzldBN .Iueleppo ztu Ó?ulr. bzsąór.t ruurłlod |e1zpnqrzpersŁs 9erur .npJo{eJo8ernouop ruqopod ,9e?enn ezolu |e1zpmqqn1rszqq ts śzrglĄ.rzparstsa7 9o1)
.z. 0uołP|it 0!uBlnosolc L.9 .ue11tuńłr ru,{uepŁzod ]se|elu s[ueJe .3.9n1unsfueu '(pro1erzezldlulluv'llo1uezerderrurupo8e1eą eanzĄ 'Łpórurod srurer'(q1'(qo3e1e1q
Dwa rekordy (B i c) gtosują,aby sklasyfikować nowy rekord jako szary (lek A lub X), Zatemważonygłosdla tej kategorii jest równy , 1 1 : głosy(szarY):.* -=-627. gP *
,ltno*y,
otno*t,alt
o,osssxt O,OsrOfr'
Zatemprzy przekonywającejwigkszości51 818 do tlfprocedura wazonegogłosowania wybrałabyciemnoszary (lek B lub C) jako klasyfikację dla nowego 17-letniegopacjenta, dla którego stosunek sodu do potasu jest równy If ,5. Zatlważmy, ze ten wynik odwraca wcześniejsząklasyflkacjg dla nieważonegoprzypadku k : 3, gdzie wybrano SZarą kategorię. jest nieokreślona.W tal
istotnoŚci atrybutu: ilościowe 5.8.0kreśIanie W.,'...' osi rozciąganie Uwzględnijmy fakt, żenie wszystkie atrybuty mogą być istotne dla klasyfikacji. W drzewach decyzyjnych (rozdział6), na przykład, są uwzglgdniane tylko te atrybuty,które są pomocne przy klasyfikacji. W algorytmie k-najb|izszych sąsiadów odległościsą z definicji obliczane ze wszystkich atrybutów.Zatem jestmożliwe, że istotne rekordy, zb|izone do nowych rekordów dla wszystkich ważnych zmiennych, ale odległe od nowych reod nowego kordów dla nieistotnych aĘbutów, będą miały stosunkowo dużąodległość mogą Dlatego analitycy podczas klasyfikacji. nie uwzglgdniane będą i dlatego rekordu nowych klasyfikacji istotne dla pól znanychjako rozważyć ograniczenie algorytmu do rekordów lub przynajmniej usunąćprzed algorytmem Znane nieistotne pola. Alternatywnie, zamiast ograniczaćpolraa priorl, analitycy danych mogą preferować wskazanie, które pola są bardziej lub mniej wazne dla klasyfikacji zmiennej celu. Mozna to osiągnąć zapomocąsprawdzianu k'rzyzowego (ang. crossvalidation) lub opierając się na wiedzy ekspertów. Najpierw zanwaimy, żeproblem określenia,które pola są bardziej lub mniej ważne,jest równoważny ze zna\ezieniemwspółczynnika z 1, przezktóry na|ezy pomnożyćj -ąoś,jeze|iwiększe wartościz j sąZwiąZanezwazniejszymi osiami. Dlatego ten pfoces jest nazwany rozciąganiem osi. Sprawdzian krzyżowy wybiera losowy podzbiór danych, który będzie użyty jako zbiór lczący, i znajduje zbiór wartościzt, zf, . . ' , Zm,które minima|lzljąbłąd klasyfikacji na zbiorze lczącym. Powtarzanie procesu doprowadzi do dokładniejszych wartości ZI, Zf, ,.., Zm.Pozatym,moznazapytaćeksperta'aby zalecitwartościZI, Z2, ,.., Zm. W ten sposób algorytm k-najblizszych sąsiadów mozebyćbardziej doktadny.
erualuslc o8e^\oZcJDIsL{Zcpo JB,toJ€Zso ,{ruelnqgrd:utazvlur.fi e1e ,alzpetr4śzldultzs -z'Qlrod łr oc qc.{uep rglqz {uus uol ńrueur ez ,t|.uu9gndśzl4 ,(?ut3o.łarcpa\q3nu Ą\nc .o1 .?ue) ouo?B,,l|olulurlol oluulupoJsn órs ułr'{zuupołeu z vupeI.qcfłroqzcqo1sr,tńzc -ezl qcśuuerurzurue^\'(pr.trezrd l eluelrlrocezsop ZeIuł\gJ o? euzoul ?s.ł\oso]s€ z łeupof .r|cagńsep op łrgpersŁs qcśzsa1qteu-ry nru{"ro8p atcśzn śangl1ezunzor ńrod |et oq
P!uPmńplnoild l
P!uPmo9Pzs qcńzsł!lqlPu.ł 0p/llt9ppIsus luiluooN.0t.9;....:. .euqopod auełroągńseq o8e1ep bpeqa < x/eN tr)lunsotso f,pro1er o^\oN .eluzsousel o1e[ euułro4g'tseq bs ezlezsqo ur,(1łr .{proąe'r err11s'tzsłr zełraruod .r|cu1gńsu11Ic9oup?plop '{]ur1szeq qc,(uep Kzeq z Bu?ou 9Łunsn .Ńazpalnod,zlu Łzs1óltn .9.g ru1unsńr Dlunsołs tlcsouu,tr z ,{plo>1er erł]sńzs.u 61 x/"N .rrro8e1eą .łr911und eu pep1(zld u51 ołeppelu tS eJ91ł rłc't o>Ildl atueulśz4 ..JIu?J8.. ..ttgpersŁsqc,(zszrlqpu-,l u4ńro8p -€Z eu3oluod óls zezld on1il eue.łr,(zn 9eza1o ezou elzpóq qc'tuup ezeqqaza|.o3e1e1q .'{u1o.t.rod lezcrucoruod rcórured op dó1sope .9ru 1se[ -4adazldÓrs ezour gó1ue4 .leu|fceredo tcórurud ruBIIuZoJeluezcluelło 3s ,euzcś1 1eze| -uure1qordórs ezour uedfisop ur,(t1u1 zl4c(uep.{zuq |ep3oq.|e11e1erueur,Ł4n 9u1s uro3e1u1 l7cśzs1sÓzcz 1!\gpJołalr|crodord uic1nper ]se[ uruezełl'{'upo1eurz bupa1.rFo8e1eąqcśzspezl óqzcq .erro8e1e>1 bznp eluzce]elsop śq,Kuoznakv' rsnur qc'(uep r9lqz o3e1e1q łelpll$az ?ełsoz .nrudo1s aue|ndod o11'fielu prelq'ilvr u1'fio8p ńqe u,(uzcolu]sop 'tł eueł\o]uezeldel ryl .łrgtnqńłu '{1'(q euo8ete)l eDIp?ZJ śqe,au7'eneru1gaezczs IJ'ouB^\ r|ceulquro4qc,(u lse1 -z9l .anl1zoru o] eII uu .[eu1ed.qcńuup ńzeq [e1u8oqop dó1sop ńqe 'ILIZEMozpftq 9er1u .o8ełrruelBluezllnpolaru nąped,Łrd qc'tzszqq|eu-ł ut'fio8le >1uIqcp1e1 1se[.m,gpursbs 16
.6.9 ..,..m qcł{uup zeqoluelupÓ;0zq .ieu|'tcu1g'tsu11r|z,(cepłr |euuerurz |eppvĄIc9oulo1sl BIuBI9eDIo o8e,totc9op ópo1erue|n1uazeldalze.'lreruodłr91ru,{łrqc,tzs|arupuplopop 9IZp -ełrord e?orrrISo elue?blczol qcerue1qo;dqcń1srłr'Łcezl oąe| ct|e1soz M.EIvZsouIueIc -od .x/BN e1p blso b7Ólu?blczol z euJEIUfzńqe13a1neru ufce4gńsup nąped,(zrdur,$ 16
,99L60,0: _ ;T,,dE]ł _ 90.0) _ (3,'tłrou)p z[(t6LT,,O z(LI6O,0 ,EVqLI,O: Z I ( T , 1 6 I_. 09 z . 0 ) t ]* z ( € g 9 0 . 0_ s 0 . 0 ) : (g.ńłrou)p
.s0'600.0: _ 90.o) - (y',trou)p ;T,,OE]łz(Lgt\,O z|.(ILvZ,O-
:ect|ndó1seufq'!ńq npJo{al o8ołroupo J I g .V ^\gpJo{eJ tcgo18e1po ełrou .npepątzld o?azszń.tod e1q .| : łelłl2r g _ x/eN2'(u9dqqeul uIał7Z ..ł\lsJ?łelllcuągńsep u Ip łaI/Y\zlu śzsteluzenśzelg o1e! '{uo1geDlo łBłsoZ)/BN łeunsołS egeds1e ńzpenr qn1 o8a.trozńZlĄnrelzpwerds tcourod ez ez,pegśud eu kn49p7
1nwi (BĘ zmiennacelu) pacjentana podstawiejego wieku i stosunkuNa/K (zmrcnneopi. sujące)' ZaŁózmy, zeBP ma zakres równy 80 z minimalną wartościąrówną 90 w bazie danych. W tym ptzykładzie jesteśmyzainteresowani oszacowaniem odczytu skurczowego ciśnieniakrwi l7-letniego pacjenta ze stosunkiem Na/K równym If,5, czy|i dla tego Samegonowego pacjenta,dla którego wcześniejwykonywaliśmyklasyfikację lekarstwa. Jeze\i k : 3,będztemy mieli tych samych trzech najbliższych sąsiadów co wcześniej, pokazanych w tabeli 5.4. Przypuśćmy,ze używamy ZNa/K : trzykrotne rozciągnięcie osi, aby odzwierciedlić większą wagę StosunkuNa/K. Tabela 5.4. ł : 3 najbliższych sąsiadów dla nowego rekordu
7 6,8 '7,2
Nowy A B
q5
C
1)5
tf,4 10,5
? LfU r22 130
0,05 0,0467 0,0533 0,0917
0,f5 0,24',71 0,1912 0.f794
0,009305 0,r7643 0,09756
Uśrednianielokalnie ważoneoszacuje BP jako wazonąśredniąBP dla k : 3 najblizszych sąsiadów za pomocą tych samych odwróconych kwadratów odlegtościdla wag, których używaliśmywcześniej.To jest, Szacowanawartośćzmiennej celu j jest obliczana jako DiwiYt
-ino*y: ffi
gdzie w; : Ild(nowY,x)2 dla istniejącychrekordóWX1, X2,..., Xk.Zatem w tym przykładzieoszacowany odczyt skurczowego ciśnieniakrwi dla nowego rekordu byłby
równy : + + .i.n.... ' > . t *1 t:: Li
1 2 2 _ _-rL _ 1 3 0 | _ l 2 o -r _ 0.00930P0J7647 o.09]5eŹ : PO'O954. I .r---!-+' ' 0.176432 0,097562 oaog3oP
Jak oczekiwaliśmy,oszacowana wartośćBP jest bliska wartościBP w obecnym zbiorze danych, która jest b|iisza(w rozciągniętejprzestrzeni atrybutów) nowego rekordu. Innymi itowy, ponieważrekord A jest b|izszy nowego rekordu, jego wartośćBP równa 120 wnosi.znaczny wkład do szacowania odczytu BP dla nowego rekordu.
ą
k WybÓr 5.11.
Jak należy się zająćwyborem wartościk? W rzeczywistościmoże nie być oczywistego najlepszego rozwląZania.Rozważmy wybór małej wartościk' Wtedy jest mozliwe, że klasyfikacja lub szacowanie mogą być pod nadmiernym wpływem punktów oddalonych lub niezwykłych obserwacji (,,szumu'').Z matąwartościąk (np. k : 1), algorytm
'0I Leuozv,r[.t 9^qrsnu qcfuBp ezeqoaezcelc .o8auo?Bł\ .6 I o8e]soJd € I ue.t\osoł8 ń1epz r ńpełr |eułr9ro4 'rc9o13e1po brurur óp.trurdeu1se[ełloseprpne ez ,ze4od łrgppnd qc'(1bcoruod e7.n9ł1und 99o13e1po . e::oezJIM1op órs '3 bnd bpze1 '{zpórurod e.ł\osaplpperc9otr8e1po vp|euz L lutrorrrpg .ł lcgou€ł\ qcśuzglu1póts ś1eluelulzeuo3e1e1,{qu.qc,(ueprgrqz lg.ttsĄełve:nnz.g rarezcllrlrgop óls le1o.ttpo .L .ł Ic'oue^\ po eluzelezeru órs e1urueuJzelu u|cuąg,{sep1 '(q łet .n1ectuuenuz błrotcgo4e|tupe|recŁinsrdo euuerurzelłrp '(c?lerellrlrezśpzeą.'(proąer ńzr119ńulń16 .9 .9 će^\ruele|uez)n uluilol ezceuzo oJ iu|cueuełr e?np v io&azce1pI ueruezcnop -elu śzc ,usQluezcnezldz euezblnz 5e| aluaztrcqo err1osś'lr.Kz3 I ćBluezJnoperu vluezcnazld ?4sełrą z tfilezblnod lsef ,(u|'tcurre.u-o,łroruezhcqo srurordtuo>IłBf .' IueJoIqZez oc o3ezce1pqnl łBło8ezcu1q ;ur'(c ;u'tu|ńcep1u^/Y\ Y ;eru .E -bzcn ezlolqz eu Jsoupep1op tłrqzoru tzs1órłr|eu łB| o 9uru1sórs '{ur9ruulłrodńz3 .ru'(ul'tcupllełrr ru'tcb|n1se1 .ur,,(ctzcnIueJoIqZ'tzpóruod ecruzgr zsrd6 .Z ćIluBpo]elu€{ualqo z elglĄY ltuemorozpeu z y l"buunonzpeueru tpoleru z ersezbtnzbs qc,(uep lfcerolds4e eru .epEZ olgt>I .btmnorczpeuolu I tuełrorozpeu bpo1eurfzpórruod Ócluzgl |ru9ui'(16.1
PIUOZCIilC'8 t'9 :';'.:"; '9002 ,l1c{uopnfxuo1ds1g'1od.uln1ł: .e3puquru3.sseJd e.ĄABZsJąY[ tNlA tooz vyt JIIĄ ,3u1u17/g .pIIBHpl^EC orcq to sa1dtcutl4.I00Z.wtrus cleĄped .u1ruue141 PPIIaH [I]
pJnlet0ll'l' erc,':::,.; .elu€^\ocezs qn1rfca1g'(s?H p?łq e|nzrprurururelg!Ą,ł 99ou31Y\ '{ul9qerq'furluslścbzcnilIluJolqz rul{uurq'itr o.itlosollllltf.uzglz 1lc9or:r-lr.euzgr 'tul9.{q1 -ełroqgrd'tmqpedfzrd ulńl r!\ .rso erue8Łrczolzazldod uz , . . . ,zz ,Iz lc9ou?^Ą\ qcńu1eur -'&do eluu.tl.śp|euzńpo1eru|azs|erugezcłrop leuqopod .o?e'rro?,{zlĄnuevph\Erds,{rnpec .errtq?our -ord op óls erue,tosop zazldodua1qord ua1 ś1nzbtnzoJ elu€ s auep .{qe ]sof . .ł Ic9ou€'4Aruoq^.ł\ suzcpod BruezpJel^r]se1 cśzenzor bzsntu qc'(uep ńc't1qeuy .euozcoezld ?Błsoz e7oln oluu.ry\oqJez a^\D{elcetule>Iol,bznp 1śqz99ouułr ńruezrarq'(zlrI o{ol€p 1śqzKanelzp|gd r1ezaf.1eupe1 ,o?acb,zcnruolqz er.tu1spodeu auozcn,{zrr.eruełroqcezeuzcg'(ceds ep1eĄ o1ezpe1?ś'n alzpóq,e1ean1śqz]sef eru ulglĄ,ł lc9ouuł\ eruerq,'(llr.'(uo4s |pl?n:p z .eIuPł\ozll€Jauets lcgou1ólarurnue]zso oBacbzcn ruoIqZ eruu1órrueduz,elaezcnezrdop ru1'(ro31eryzpelr. -ord ezoru ue] secord e .r|cułrresqolezszqqluu n1ec |auuerurz ?9ow1^ |Jglly\z nlsord od
I|. WzykJad w tekściewykorzysĘący algorytm k-najb|lzszych sąsiadów do szacowania pokazuje, ze najb|izszy rekord maprzytłacząący wpływ na szacowanie' Zaproponuj dwie metody osłabieniatego mocnego wptywu najb|iższegorekordu. 12. omów za|eĘ i'wady używania małych wartościk w przeciwieństwie do dużych wartościk.
rrronod plosr^\ .&c ruperg .D1sIuetu .Ą\gpJołeJz śp4eąśzc,ezpntelds l ru'(u|'k,(cep ll;re1zlm1se[pezroą ru1peddzrdu'$ r!\. .($000 0€ < qnl $000 0€ }) ppttcop r ('t1erueru qn1f1eul) 4afufnw.(e?np .etupels .eł€u) Iryoup)zJzso o1ecbfnsldo euueruIz .ełrofper1 o4śzil o?np qnl epu '(ctrłroue1soąef rue.uoąg'tsuwz )e$oz Ł8our rcuerp1pp|cue1 -od e ,amo4tpaą o4(z{l tse| I.9 n1uns,{rz o8eu|t|z(cepenezlp BIp nlec buualn7 eu['{2,(cep o^rezJpetsor4 .1.9 .sdg
es0000€ > pgqJop
;,{1aur= qelbfuur etno1fper1 oąfz.{r e1eu
eznp = rcsoup5zczso
rcgoupózczso
ea?np
.egpeJg .a1Btu =
1rgoupózrzso
'o8eul,fu,(cep emazrp o?e1sordpup1,{zrdurłrąspezrd 1.9 >1euns'(g.eIJ9IIop oq1e .o8eul'tzścepetrzln o8auur op oq1erzpułrord ,vbp? upzey ,vbp? onut 1se|auuzceuzzz alc9|ś'lrl. eł\qzou ep -vvĄe.qc'(u|'Ł.{cep qce1zÓn./Y\eu€Zpł\BJds bs '$nq'(4u ,o*eu|śzścep B^\eZJpn]Prueqcs azl93 eu 1se[duuzczserurno.tolezcśnz ttl9łą,ulnazloĄpo cb,|euizce7.@apouloa1 .Bue) 'Bue) BIuozJoĘ po ;cg;1qc'(ctzcgoł op ze (apou 1oo.t ł9p urróls qc'(ctzpoq)Zol,(qcunłq .Eue) ,oileuffz 7z6p3 tcotuod ez qc(uozcb1od qcduf.{zfcop llrgplłl. ruolqz ąśzc .feep unaz.rp r|c1ru1suo1e8eu,(lrr r[cagńse14 pololu qc'{ct|nserelurZ €upaf .qc'{uup t|cero1ds1elvrglec op r|cuągńsepl po}eru eIu€I^\BIuo '{ure|nnu'tuoĄ alz,Izpzo.lru'fi 7y1
euJńzńcop EfrllozJ
oszczędności(co zostałookreśloneptzezanalityka lub eksperta).Zbiór danychjest dzielony zgodnie z wartościamitego aĘbutu. Te rekordy, które mają małeoszczędności,są przesyłaneprzeznajbardziej lewą gałąź(oszczędności_ małe)do innego węz|adecyzyjsą przesytane przez najbndziej prawą ga|ąź nego. Rekordy z dtlżymi oszczędności.ami do innego w ęzładecyzyjnego. Rekordy ze średnimioszczgdnościamisą przesyłaneprzez środkowągałązbezpośredniodo liścia,co oznacza zakończenie tego rozgałęzienia.D|aczego do liścia,a nie do innego węzta decyzyjnego? Ponieważ w zbiorze danych (nie pokazane) wszystkie rekordy ze średnimpoziomem oszczędnościzostały sklasyfikowane jako małe ryzyko kredytowe. Nie ma zatempotrzeby lzycia innego węzta decyzYjnego,ponieważwiemy, żeklient, który ma średnieoszczędności,stanowi małeryzyko kredytowe z dokładności4 I007o w zbiorze danych. Dla klientów z małymi oszczędnościaminastępny węzet decyzyjny sprawdza, czy klient ma mały majątek. Ci, którzy mają mały majątek, są zaklasyfikowani jako Stanowiący dużeryzyko kredytowe, w przeciwnym przypadku stanowią małeryzyko kredytowe. Dla klientów z dtlzymi oszczędnościaminastępny węzet decyzyjny spra,wdza,czy klienci ci mają dochód co najmniej 30 000$' Klienci o dochodzie mniejszym niż 30 000$ są zaklasyfikowani jako stanowtący dlże ryzyko kredytowe, w przeciwnym przypadku stanowiąmałeryzyko kredytowe. Kiedy nie można dokonać nowych podziatów, algorytm drzewa decyzyjnego przestaje dodawaćnowe węzły.ZałóżmynaprzykŁad' że wszystkierozgałęzienia kończą się ,'czystymi'' liści,gdzie zmienna celu jest jednowartościowadla rekordów w tym węźle (np. kazdy rekord w liściu na|ezy do klasy małe ryzyko kredytowe). Wtedy dalszy podzia| nie jest konieczny, a zatem dalsze węz|y nie rosną. Tabe|a 6.1. Próbka rekordów, które nie prowadzą do ,,czystego',liścia
::,]o.os,ry4r]t',l
,e..'.''9'...| 004 009 0f7 031 104
duże
mĄ
duże
mały
duże
mały
duże
mały
duze
mały
< 30000$ < 30000$ < 30000$ < 30000$ < 30000$
duze dużę małe małe małe
Jednak mogą być przypadki, kiedy dany węzeŁzawiera,,róznorodne''rekordy (zniejednakową wartościązmiennej celu), ale mimo to drzewo nie może dokonać podziahl. Za|ózmy na przykład,ze rozwazamy rekordy z rysunku 6.I z duzymi oszczędnościami i małym dochodem (< 30 000$). Za|ózmy, żejest pięć rekordów Z takimi wartościami, i wszystkie mają małymajątek.W końcu zatózmy,zetrzech z tych pięciu klientów zostało sklasyfikowanych jako duzeryzyko kredytowe, a dwóch jako małeryzyko kredytowe, jak pokazano w tabeli 6.1. w rzeczywistościczęsto są spotykanesytuacjetakiejak ta, z róznymi wartościamizmiennej celu, nawet jeze|i zmienne opisujące mają takie same wartości.
qc'(udó1sopqcr:11s'(zsłr e,:uaĄnzsezldo8euqó18opo8eui'(zńcapepón o8epzuąBIp elu€Zp .n1ec|euuerurztme|)soue.u rruńu -ełro;dezrd zezldod oweznpe|npnq JuVJ ur1ńro31y .qopod Z 'ĄĄgpJołeJ ń.lorqzpod eu o8ecbzcn ruoIqZ ez '(pro>1er 1erzp elul,tcueJruIeJJSVJ .o3eu['tz'(cepepón o8epzeą zacbzpoqcśnelzÓ1e? erłrp odelup€plop b,|enlntez.euleutq a19tc9?s ISVJ zezld euozlołqs eu|'(z'(cepe^leZJC .ruIoJ'86I łr [1] qcńuul I eu€ruleJg zezld euenouodorduz ełe$oz (ruvc) qcdu[,(ser3e.r1 qcdu[,{ceąg'(su1ą.,!|ozJpBpolal^tr
. oulńsol6oJ! ou!ń3Pł !!tseP|PtrttozJ o }.9 ....;... '9'73 tu1'(ro?Iv . .(ruvc) qc,(u|dser3err qc,(uf'(ce1gńsup1MaZIpun.fto81y r :qcfu[.&.{cap.ł\eZJpeluu.ĄAopnq .tł9u4'(ro31u qcdu.t.r918 qcgł\p op achzpvnord .rc9q rcso]s'(zce|UazIeIUJpo1eu nIeI^\Z evrrp '(rurłrgulo ć9'ouporoupef .elu1or.t.lpo.qnl -alu euvoln >1u[ 9śzrclul 99oupoJoupo|9iznrus €u?ou ąe! >1eupa1 .Ic'ouJn Łrurul Łudó1s -op tzsąólłrluu z .(se1ą op errresrd'tz ld 33our eu|'(z ścep qgsods ua1ł\ etltezlp 9runadez .'{sep1leures ,śzcuazo1 .ełrq?our |e1op 'tze1eunIJ'IT tuńuep ^\ ^\opJołoJz śpze4ńp? o>II'(toł ts aJ9DI .Io9IIlglqz 9fznlrll1s órs blerąs eu['k'(cep eMeZJQ 1u|..ezqs'(zc[Bu.. o3e11sururezotrerq'tłreru o8ezce1q enruezJo{ n ścb,1elzp oąu!1r; Lnpoq)op qn1n4łbttlu,t -oup)zczso otrerq.{łr au|t|zt|capoMaZIp avpe14(zld ur'Łsz'(trod łr o8ezce1q 1nq'{4u .elu qnl,(sep1feuupop ectze1eu.{zrd o>1u|euozcvuzinousuIbs er9ł1.rc9o1rełr .n1ecfeuuerurz|e1?blcop qcńu[,Ł,{cap lrrezlp śzl1 9ełrorulfzrd Isnu nlec €uueIIuZ |ezcug .eu1er4s.,(p tzsnru n1ec |euuerurz'(se1y .E -eue oe^\oso1saz Bu7o:ul alu,śzceuz o1 9'(q .o.Ą\qzolueluqn1euzc'$eure1qord?póq ruorqzpod o3e1u1peruurYrńpr,uezrd r ufcu1g'{se1qo1 .erue1saqo op o8ełrqzolu nJolqzpod e1p łr9p -ep1ttzlde|n1e'rqeruzc'fiuure1s.(sqeze| l pu;ą,&rd zezldod Óts bzcn eu|,|z,|cepellieznq .rcgo1zsfzrd .znoplo>1e.r łr euqezr1od cśqazoane|cer1gńse14 qcńr91ą łr9d'$ ódru8 Łu't.r'$ul .(, -uazaldalb,nolpz,,btferu^rodez,Kupolouzo.l r ,!e8oq 9ńq uerur,t.rodścbzcnI7IqZ .n1ec |euuerurz lcsou€ ^ l ścb|enlnez t|cbzcn .eple] ołB| '&e1e5 .n1eclauuerurz [euu.t.ro1g'{se14s lgtqz gśzcrc1sop erudó1srvr b|e8uru'{^\ .r o8eue,ttorozpeuElloezln,tł9tu1'{:o31e opb,ze1euqc'(u|'tzńcep N\eZIpńu1fuo31y .1 :qcńu |'{z'{cap.ĄĄeZJp ulil.lo81e eu?oru Ulruuz.euoru1eds).e1soztzsnur euu8uur'tłr ecŁ|ndó1se5 9€ . trroso]S€ Z ..ĄAg{qoJBZ uepó18z.tt pod ruezpłrerds Łs eru ,pep1śzlduu .ruenpb|eruurf1eul I Iluulc9oupÓzczso prń1eru Z IcueĘł atzpeąKzld ur'(l r!\ .^\9pJołeJqcq1s'ksłr ?Ip ewzp^\€rds ?s '!nq'{az erł]s'fus.tl'eIUez,lw?enne7 .ełro/perą ,e1v3n o>1(zśs eznp Łrłloue1s ńzr9lą ru'{l łr ł\glueIPI elbld śzltzazld ultuo1 -'eĄo (obo9p1ouln ureurorzodz e7np..o1 .ĄA91ua{ł qJpp1e|ceągfsep1 a7,ocent *o4śzśl .n1ec -ou.ro;urod azou eu|tz(cap o^\ezJp n4ped,&rd ul'tl |euuerurz lluelcsouervr mrńu r\\ .erc;q -z..9lz ,anelcgqu'(uporouzgr óts e|e]s op 'tpzpemord 1ezółrpIB}o3e13IC ..o3e1s'(zc.. '(q er9q .qcńcblnsrdoqc'(uuenuz I{uBIc9ou€ł\ z elupołz ^\9pJołeJn1urzpodIc'o'i!\ITZoIu €Iu elu .qcńctfnsrdo qcduuerruzIc'oue^\ a{uesoDIB]tfeu rcuery1fcs'(zsrYrZ€.,rteluod
Llil
zmiennychi wszystkichmożliwychpodziałów,wybierającoptymalnypodziałzgodnie kryterium(zpracyKennedyi inni [2]). z następującym podziałus w węŹlet, gdzie możliwego Niech @(slr)będziemiarą,,dobroci'' #klasy
@(slr): fPrPp f
trf,,V) - P(jltp)
(6.1)
J:I
i gdzie /I-: lewy potomek węzłat, /p : praw} potomek węz|a t, p--
'L-
Pp-
P(iltv):
|iczba rekordów w /L Iiczba rekordów w zbiorze luczącym. Liczbarekordów w /p |iczba rekordów w zbiorze uczącym, |iczbarekordów na|ezącychdo klasy j w tt
|iczbarekordów w r liczba rekordów na|ezącychdo klasy 7 w rp P(iltp): |iczbarekordów w / Wtedy optymalny podział to ten, który maksymalizuje wartośćO(slt) po wszystkich możliwych podziałachw węź|et ' Tabela ó.2. Rekordy zbiorllczącego
1 2
średnie
daży
małe
mały
-t
duże
średni
A
średnie
średni
małe
średni
o
duże
dtlŻy
7 8
małe
mały
średnie
średni
do klasyfikacji ryzyka kredytowego
75 50 25 50 100 f5 f5 "75
małeryzyko d.uizeryzyko dużeryzyko małeryzyko materyzyko małeryzyko duzeryzyko małeryzyko
Spójrzmy na przykład. Załózmy, ze mamy zbłór lczący pokazany w tabe|i 6.f jesteśmy zainteresowaniużyciem CART do budowy drzewadecyzyjnego do przewidyi wania' czy dany klient powinien zostać sklasyfikowany jako stanowiący duze, czy małe ryzyko kredytowe. W tym małym przykJadzie wszystkie osiem rekordów wchodzi do korzenia. Ponieważ CART jest ograniczony to binarnych podziałóq możliwe podzia|y w korzeniu, które oceni algorytm CART, są przedstawione w tabeli 6.3. Chociaz dochód jest zmienną ciąg|ą,CART moze nadal zidentyfikować skończoną|iczbę możliwych po-
.8t79 ,O : ,1 ruolqz 'tzsłrrerd,tqe .trerq'itr (l|s) z ntrevpod e1peueąs łelzpod J6VJ o -śznv1v1soz 'tło1elzpodqcń,trpour p9J'1ń (t s) csouem eII?ł\oł\JeSqo uu1eruńs1e6 I o .qc'{uepruoIqZo3e1e1peue8brso ]se[aru Ine7eze,elsśzc z epzeą śpB,elm?blso ]so[ (Ąs)Ó uuptu'(sąeur 99oilełr euzc'(1eroe; .ń'l 1se[.ł.rezrppod -atzc od ślolqzB.Ą{peu ou.Ą\9Jod euo1srzpod?s ńpro>1arzułreruod .9.6 tułrg.r ddad1, €Ip bupurńsąuru buzcś1ena11tu8trso g o11't1 arzpu11'tzrd u'! ?'ouu1!\ 1elzpod 16 .9.0 : Łrcso1rełrbuzcĄarcaa..ĄĄgpJołeJ lqzcq 9.0 ' 9.0 . z lsel adldT,bu1eru'ts1eru Łułrgr nluen1qńzld łr Ł|eur T ffipI qcrĘsńzs.t.ru1p euporoupel tS oJ9DI .zQerzpods|rue; .^lgpJołal śqzcqeu^l9J ntuan1qśzldn -ard (l|s)p rcgoqeur'$do eJBIIuo3e1>1e1ru1s16 ecb,terclnez ełrezrppod ?^\pBu euep Ł1erzpergq .łrgprzpod qc'tueułr9r'(tr eluuzpel?eu op otrśzbpatzp}q (t|s)o o3e1u1q.eu^\gJŁs erłrezppod ul,{łrerdr ru'('rae1'tr A\gpJołeJ tqzcl1ńp8 .ecs|erurulu oc .a?np ts dd I ad 'tp8 tqeru,{s1eur 1se|adadz 4ruu'Ł3 .eąruu''tzco3e1bu1eur,(s1eur Żrc9open 1se| eI./Y\p e[nru[,{zrdano1(pal4 Oltzfu emotc9['(.tt eu*elaltz vzser Z ł.ałDu I aznp n,o1^JP-Ą Z€./KeIuod .n1acfeuuerruzs€pl bqzcq5a| etzpa.ł (Ąs)Ó Łqeul.{sąuru trcgopełr tse| 4 buzc'$eroe; .(e1sńzc)euporoupe|olcl^lołłPc?s łrezrppod pIłoqcZJeI^\ ńsup1fepza1 u1p .e^\{Zou o41,fio1 ńp3 .9ełrodó1s,{łr erzpóq eqeu.{s1eru 99ou3^11 nu|,auzgl ąet Łs n1ec |euuarurzIJSouB,nn t.epqeą€Ip lĄAezJppod qcn11oqczJel^\^\^\gpJo{eJDlunso]s'(p3 '{uem .ń'tro1srur,(uu1.(n1ec|euuerulz -ozlpurńsąeur ue1 1se| rcgo1.lu.tr) 'tsep1 |apzuą u1p ąluu,{zc eu3't\ozllzlu'(s1uru (a71 śzpóllllod lse| fp8 tznp (lIs)@ [)a CĄD4 1set l 99o13e1po ryu .|GĄDa _(ĄDa| -uśz3 1set(l|s)@ (ĄS)Ó qcolN Lśvnp 4ruu'&c'tpery ,,:;;3: , | ( d Ą { ) a_ ad ad :eznpts 11ruudzceqo,tp8 .aznp 1se| (t s) ez, ślrnzpt (aĄ { ) a | I 7, I o *,:;;3 11yiaznp .pu;r1,{zrd e1q .qcelunJe'lr qcśazgl'tr lc9ou1eu'Ędo 'fuerruousł\oqJ€Z 1set(l|s)6 ńpeq tcourod eZ .v.g {oqą 't\ (i Is) o lcgoqeu'fido ?epeqz '{ruazourIJ'ou€^l qc'(ue,u,o,tłresqo 'fuupr 't-o>11uut|zc lFct{uzglIcsoue,/Y\ fur7płrerds n1erzpodo8ełrr1zouro8epze1 e1q .sep1óqzc11Łzsleruur .qcńu eu |e1?blc|euaelurulc'ou€ł\ e1erzpodo 9e.ttop'(cepzalouląń11uuu .eru.t.'{1eu.rel1y -ep ezrcIqz łr e|nulńzrd Buuelluz erop1.rcsopełr qc'{uzgr Kqzct1elłre1spodeU ,^głelzp
s000 9t< pgr.lcop $000 sr > pgqcop $0000s< pgqrop $000 0S i PgqcoP $0009z< pgqcop $000 SZ S PgqcoP '(znp = 1e1t|eru {ruperg'fpru}= laltfeur .,(treul = 1et?[uru IUpeJS {,(znp } =>1e1Ł[eur 3 {e1?feru fluur = leltferu {.,tunp'mperg} .e1au}= rcgoupózczso eznp - rcsoupózczso {etuperg .epur}> rcgoupózczso elupeJs = Icsoupózczso {eznp .eruperg}3 lc'oupózczso e1uu - rcsoupózczso {eznp
6 8 L 9 I b t,
z I
yezJoł - l e1p ś1vtzpode.ĄqzotrĄI.€.9 BIeqBI
Thbela 6.4. Wartościczynników miary optymalności@(s|t) dla każdego możliwego podziafu dla korzenia
roiąl . I
o 175
f
0,3'75
3
0,25
A
nt{
5
0,5
6
nt5
7
0,3'75
8
0,625
9
0,875
0,625 G: 0,333 B:0,667 0,6f5 G : 1 B :0 G: 0,5 0,75 B: 0,5 G:0 0,75 B:1 tt \ G: 0,75 B: 0,25 0,75 G: 1 B:0 0,6f5 G: 0,333 B:0,66'7 n ą75 G: 0,4 B: 0,6 0,1f5 G: 0,571 B:0,429
G: 0,8 B:0,2 G:0,4 B: 0,6 G:0,667 B: 0,333 G: 0,833 B:0,t67 G: 0,5 B: 0,5 G: 0,5 B: 0,5 G:0,8 B:O,f G: 1 B:0 G:1 B :0
0,468'75 0,934
0,4378
0,46875
T,f
0,56f5
0,3'75
0,334
0,1253
1,66'7 0,6f48 0,5
0,5
0,25
0,37s
I
0,375
0,46875
0,934
0,4378
0,46875
t,f
0,5625
0,218'75
0,858
0,187'7
korzeń (wszystkie rekordy) majątek= mĄ ,us duży} mająteke {średni'
duźeryzyko (rekordy 2' 7)
Rys. 6.2. Drzewo CART po pierwszym podziale
danych wykonać zapomocąpodziału 4,majqtek = małyvS majątek e {średni,duży},co pokazano na rysunku 6.2. Lewy węzeł okazał'się liściem,poniewaz oba rekordy, które zostałyprzekazane do tego węzła,mają duże ryZyko kredytowe. Prawy węZełjest jednak różnorodny i wymaga dalszych podziatów. Znowu tworzymy tabelg możliwych podziatów (wszystkie Są dostgpne,optóczpodziału4),razemz wartościamimiary optymalności(tabela6.5),Teraz
€I I I.0 tŁŁL (,l
vvvn'0
n'0 zSLZ'0 9999'0 I
9'0
nvw'0
9'0
zzzz'0
s'0 vniv'0
(LLL U
ww'0
I
wvn'0 vbw'0
v'o Z8LZ,O
€I I I.0
9'0
ŁŁŁŁU
9999'0
0:g I:C 0:g I:C 0:g I:0 9Z'0tg 9L'0:9 0:g I:C 0:g I:D
€ € . 0 :s 199'0:D z'0 ig 8'0:c
,ą,lb
z'o tg. 8'0:c g€ € . 0 :g L99'0tD s'0:g s'0:c 0:g I:C sz'j tg. 9t'0:c s'0 :g 9'0:c 0:g I:C 0:g I:C (trlha,
L9I'O 9'0
8
9'0
6
E€ 8 .0
199'O Ł Ł ŁU 199'0
ŁŁŁ |.'
ŁtŁ ('
199'0
199'0
ęEt,o
9'0 € 8 .0
Ę-
SU
L9I,O
L 9 I t (, I
till
y oflau|fz ścepep1 tt e1pnprzpod o8errr11zotu o8epzu1 u1p (l|s)4l rcgoqeru.{1dofrurur ,tl9r1ruu'{zcIcgoueł\ .s.9 BIeqBJ
.g.9nąuns'fteu 'y o?au|tz(cape1zlme1p.{eluperg.e1eru}) Iaoupezczso ouuzuąodo.&ezJpełro1tuń16 ,slteznp_ n;oup)zczso(Ełelzpod.ng1evpodqc'(uoluerurśl:l-z śzsmlrld'{urererq'it'eru -IB4IqJV.wvl,g.(l|s)o € I p 9'oueł\tzs1óln|uu'Ęóu8hso(1.1) śp1zpod ełrr1zour e.up y e1vÓna.reptzpodod JuV3 o.Ą\ezJ(.€.9.s,(u (B'S't'I ,{p.ror1a.r) or1,Łdr a1eur = rcgoupózczso eznp = IJ9oupóZczso
(8 .9 .s .' ś€ .I '{pJoła.r) y duf,tzfcap pzó,tł
G
.z ,(prołal) or1dzd.lapnp
, 1eur = 4elbfeur
'rups:g}> {fznp 1e1t[uru so fleur = 4elbfuru (dproqar ap11s,(zsr,r) gazrorl
korzeń (wsrystkie rekordy) majątek= maty lls duży} mająteke {średni,
majątek e {średni'duży}
duże ryzyko (rekordy 2' 7)
węzełdecyzyjny A (rekordy 1, 3, 4, 5, 6, 8)
oszczędnoście {małe, średnie}
węzełdecyryjny B (rekordy 3, 6)
małe ryzyko (rekordy-1,,4,5,8)
Ponieważ węze| decyzyjny jest różnorodny, Znowu musimy poszukać optymalnego podziału.Tylko dwa rekordy pozostaty w tym węźIedecyzyjnym, kazdy ztakąsam4 waftościąoszczędności(duże)i dochodu (25)'Zatem jedynym możliwym podziałemjest podzia| na majątek _ duzy vS majqtek = średni.Końcowy wygląd drzewa decyzyjnego CART dla tego pfzykładujest pokazany na rysunku 6.4. Porównajmy rySunek 6.4 z rysunkiem 6.5, z drzewem decyzyjnym algorytmu CART oprogramowania Clementine. Zostawmy nasz ptzyKad na boku i zastanówmy się, jak CART będzie dztatałna dowolnym zbiorze danych. W ogólności CART będzie rekurencyjnie odutiedzał kazdy zpozostającychwęzŁów decyzyjnych i stosowałpowyŻsząprocedurgdo znaleztenia optymalnego podziału dla każdego węzła,W końcu nie pozostanie zaden węZet decyzyjny i ,,ca|e dtzewo'' zostanie zbudowane. Jednak, jak widzieliśmy w tabeli 6.1, nie wszystkie liściemuszą być jednorodne, co prowadzi do pewnego poziomu btędu klasyfikacji. Za|ózmy naprzyŁJad, że poniewaznie możemy dalej podzielić rekordów ztabeli 6.1, sklasyfikujemy rekordy zawartew tym liściujako duzeryzyko kredytowe. Wtedy prawdopodobieństwo, ze losowo wybrany rekord z tego liściajest sklasyfikowany poprawnie, jest 0,6, ponieważ trzy z pięcia rekordów (60vo) są zaklasyfikowane jako duie ryzyko kredytowe. Zatem nasz wspó'łczynnik Mędu klasyfikacji (ang. classification error rate) dla tego konkretnego liściabytby równy 0'4 lub 40%o,poniewaz d|a dwóch zpięciurekordów poprawna kategońa to małeryzyko kredytowe. CART obliczyłby wte. dy wspótczynnik błędu dla catego drzewa decyzyjnego jako średniąwazoną pojedyn-
eu4ueluelJ uIIIe^ĄolIIBJ8oJdo JuVc
o.ĄĄeZJ(.s.9 .sdu
ilBłp$s ffią-sffs l ilu$,e' | &as'el atąQe| s ilfiiltą8w ,t:0ff ffi lit::,l.,,.llt:.:,ll:tla'słr.& n EBB'fl --ga*-e"!imfr6i6fr* ',ł 8li66ffi u ę s łBzB&! } łs[*&ń
r@$$$r:a@pt
,o*L,u
nio I
Ęąh{*ilJ
t 0ns'łs u:e1qBg
sw$ar:3!rw ó.E€e fi s&o.g rr ?e etA6*B)ł g,pca;r6
l39oupłz]z$B
g il!0'9/ I C{J-JJ '
tłęł$*s ' sB0.$ł *.|*łęs0 B,r.qop; B 00B'B ilĄap 1
gl:eB*ls{],,l:,]tl'lr.,:.rlrl'l '].ee*e **q&**BijłEa;&* u
głE
ls9'9l' **3j36$ffixir** q6
' łęa*&ń
Ł łail*łVt
I
ó,teur
& gB&'!!|, |i.ałgtr*
s.xesrmr-6ĘeFI € 6&s./[ -?"ut6€ts is*#
u lą
&ła.eM
a)''le{r-H$
czych współczynników błędów |iści,z wagami równymi procentowi rekordów w kazdym liściu. Aby uniknąć zapamigtania zbioru nczącęgo,algorytm CART musi uruchomić procedurę ,,przyctnania,' węz|ów i gałęzi,które w przeciwnym przypadku zredukowałyby umiejętnośćuogólniania wyników klasyfikacji. Mimo ze drzewo pełnema najmniejszy wspótczynn7k na zbiorze :uczącym,wyńkowy model moze być zbyt z|,ozony,skutkując przelczeniem. Gdy dodawanyjest kolejny węzeł,podzbiór rekordów dostępnych do ana|izy maleje i staje się mniej reprezentatywnydla całej populacji. Przycinanie drzewa poprawi zdolnośćuogólniania wyników. w jaki sposób algorytm CART wykonuje procedurę przycinania drzewa,jest wyjaśnioneu Breimana i innych [1, s. 66]. Zasadliczo, znajduje się regulowany całościowywspółczynnik błęduw celu ukarania dtzewa decyzyjnego za posiadanie zbyt wielu liścii zatem za zbyt dtlząz|ozoność.
C4.5 6.2.Algorytm W:,,:, Algorytm C4.5 jest rozszerzeniemQuinlana jego wtasnegoalgorytmu ID3 do tworzenia drzevtdecyzyjnych [3]. Podobnie jak w CART, algorytm C4.5 rekurencyjnie odwiedza kazdy węzeł decyzyjny, wybierając możliwy podziaŁ,dopóki dalsze podziały są możliwe. Jednak są ciekawe róznice między algorytmami CART i C4.5: o W przeciwieństwie do CART, algorytm C4.5 nie jest ograniczony do binarnych podziałów. Podczas gdy atgorytm CART Zawsze tworzy drzewo binarne, C4.5 twotzy drzewo o bardziej ztózntcowanym kształcie. o Dla zmiennych jakościowychalgorytm C4.5 z definicji twotzy osobne gałęziedla kazdej wartościatrybutujakościowego.Może to skutkowaćwiększym ,,tozga|ęzieniem,, niżjest to pożądane,poniewaz niektóre wartościmogą rzadko występowaći być w sposób naturalny powiązane z innymi wartościami. o Metoda mierzeniajednorodnościalgorytmu C4.5 jest zupełnie inna niż metoda algorytmu CART i jest szczegółowo omówiona poniżej. Algorytm C4.5 azywapojęcia zysk informacji (ang. information gain) lub redukcja entropii (ang. entropy reduction), aby wybrać optymalny podział. Za|ózmy, ze marrly zmienną X, której t możliwych wartościma prawdopodobieństwa p1, P2, '. ', pp' Jakajest najmniejsza|iczba bitów średniona symbol, potrzebna do przesłaniałańcuchasymboli reprezentującychobserwowanewartościx? odpowiedŹ jest nazywana entropią X i jest zdefiniowanajako H(X):
_Ę,,|ogz(p).
Skąd pochodzi wzór na entropię? D|a zdarueniao prawdopodobieństwie p średnia |iczbabitów potrzebna, aby przes|aćwynik, jest równa _|ogz(il' Na przykład wynik sprawiedliwego rzutu monetą, z prawdopodobieństwem 0,5, może zostać przes|any za pomocą _ log2(0, 5) : 1 bit, czylri0 albo 1, w za|eznościod wyniku rzutu' Dla zmiennych zkilkoma możliwymi wynikami używamy ważonejsumy log' (p 1), z wagami rów-
Iluelc9oupózczsonu,{znpZł\gpJołeJzuepef.! - "łn*".! - oluoel2,| - "ł"v4:,turuur ure1ez.rcgoupózczso e1erutfeu ,(proąe;,tzr1irc9ouplzcźso arupeJgb||eln śp;r;l4al śz4 .lcgoupózczso e?np tleu '(pro>1eJ Bł\p ,(lcgoup6zczso) n1erzpodo8e.tr11zouI uICI 1 .(ticeuro;ul uenls'tz qn1)ndo4ue tlc>1npertzsąórłrfeu e[ru11n1s 1erzp .od 'trgq ,9ńzceqoz Kqe ,wg6,O : (J)H b1z n1evpod o8epzz4 óldo.r}ue'{uuurvrgro4
'tt96'0:
-(:).'.,: (l).'"':
r.ta
t
:(ld)ć8ol,dś_:(t)l-I
rsouń,trruetrerzpod pezrderdo4ue.arYrofp -e.ą o>1'tz'{r aznp o>1e|rur,(uełroąg,(sep1s nuupJołalealezĄ rur'tctfelsozodz .ałro/pe.rą o4śzśs e1eruoąul qc'{uełro>1g'(se;qs nr.u'o z 9Óld zułreruod,zEIeL 1se|^\gpJołeJ
a.Ą\IpotrĄ.9.9BIeqBI 9.73 nułdJo81u€ I p nmezJo{ 'rn',{1erzpod
.(9.9€ I -eqe1)euup erł]s'tzs.trcb[n1sfzro1'(m,ś1e:zpod e^\qzou erł}s,{zsłrtinezunzol I nIueZJ
-o1 łr '(urge1setzel ezczseI J6VJ tcoruod ez |etugazcn o1 ,(urgqrqorz4e| 4e1.ezrrofp -arą o>1,tz,tr ńqe .o8eu[,(zścap unazlp 'irrropnqop u4ńro31e'(ru|nsols 9emoąg'(sep1s s.'J -vZIz.9lleqetZ qcńuep ruoIqZ op ńu9grrrr.g.73 ńqy nurf.lo81e erue1etzp 9uze>1od .(5) .rlceur.rogur rysi(z 1s'Ł'tzs1ór.tr|eu '(cbieu q'Łc .fu1eur,$doprzpod eretq'{łrg.73 ru1'fuo8pw(utńzficep e17ółru'(p7e>116 .s: rrreł€rzpod tu,{m1zoru z elupo?z r|ceu 1 o?ecbzcn ruoIqZ plzpod zazld euozłołl]^,tłr -JoJuIeuezs1ólłlz l1izc,711sp _ (Du : (5)rysr(zo4e!;[curu.ro;u1>1s'(zzsur ?B1^ .olugepz .(pe1tł'(uezo141.ezrorqzpod ru,Ę-J łr ł\9pJołoJluecord efĘuezerder l4 elzp?
(z'g)
,(!J)SHld
I
-.'
ś 1
:
(l)Slł
t1'(zcłrgrorqzpodl7ctzcuńpetod e1pndor1ue Bluns BuoZ.B'\\ o{u! euozcllqo '(pe1łrcńq ezour ó|ceurroJut€u eluB^\oqezBodezerupeJs .łJ , . . . ,ZJ ,IJ łrgrorqzpod B{IpI eu .S 1 ścbzcnl;glqz \evp ,(r-opl 1elzpod ńm1zour '{rueurav ,tulv9p7.qgsods 'tctfndólseu rrr rrdo4ue ulcófod emśzng.73 ru1'fto81y t . ( !d ) ( a o t! d ( _ : ( x ) u IueJoz^\e|rupru1soc ..trgryu.&tt n.Ąusyelqopodopłrerdrur'(u t
t
.lź
L-\
ma małe ryzyko kredytowe i jeden ma duże ryzyko kredytowe, co daje prawdopodobieństwo wyboru małego ryzyka kredytowego równe 0,5, Zatem entropia w przypadku dużych oszczędnościrówna -ź|os,G) _ źIoe,G) : 1 jest podobna do entropii rzutu idealną monetą. Wszystkie trzy rekordy ze średnimioszczędnościamimają małe ryzyko kredytowe' zatem entropia dla średnichoszczędnościjest równa _i log'(ł) : 0, gdzie zwyczajowoprzyjmujemy,żelog,(0) : Q' 3log'(3) W zastosowaniach inżynieryjnych informacja jest analogiczna do sygnatu, a entropia do SzLłmu) tak wigc Zerowa entropia dla średnichoszczędnościma sens, poniewaz sygnałjest czysty i nie ma Szumu. Jeżeli klient ma średnieoszczędności,to stanowi małe ryzyko kredytowe ze l0O-procentową ufnością.Ilośćinformacji potrzebnej do przesłaniaocen kredytowych tych klientów jest zetowa' dopóki wiemy, ze mają średnie oszczgdności. Jeden z rekordów z ma|yml oszczędnościamima małe ryzyko kredytowe, a dwa z rna|yrnl,oszczędnościamimają dtlze ryzyko kredytowe, co daje nam naszą entropię _{ tog,1{; _ dla matychoszczędności ?|oe,(?): 0,9183.Łączymy te entropieztych trzech podzbiorów Za pomocą równania (6,f) i stosunku podzbiorów P;, tak ze Ho,zczęd.,oś,i(r): ś(I)+ i(0) + i(0,9183):0,5944.Zatemzyskinformacjireprezentowany przez podział zgodnie z wartościamiatrybutu oszczędnościjest obliczany jako :0'9544 _ 0,5944: 0,36 bita. HQ) _ Hoszczęd'ności(T) w jaki sposób mamy interpretowaćte fitlary? Najpierw H (T ) = 0,9544 oznacza, ze średniojest potrzebne 0,9544 bita (0 lub 1), aby przeslać informacjg o ryzyku kredytowym ośmiuklientów w zbiorze danych. Teraz H,,,,,ęd,osci(T): 0,5944 oznacza, ze podziat klientów na trzy podzbiory obnizył średniezapotrzebowaniena bity potrzebne do przesłaniainformacji o ryzyku kredytowym do 0,5944 bita. Niższa entropia jest dobra. Na tę redukcję enttopii mozna patrzeĆjak na zysk informacji, tak więc zyskaliśmy _ 0,9544 - 0,5944 : 0,36 bita informacji, dzte|ąc średnioHG) _ Hoszczędności(T) Za pomocą zmiennej oszczędności.Porównamy to z zyskami informacji przy innych możliwych podzialach i wybierzemy podztaŁ z najwigkszym zyskiem informacji jako optymalny podziat w korzeniu. Dla możliwego podziału f (majątek),dwa rekordy majądllzy majątek' cztery mają średnimajątek i dwa rekordy mają mały majątek, zatemmamy Pd,i,y: fr, Ę,"dni : 64, P-uV : fr. oua rekordy z Óuym majątkiem są zaklasyfikowane jako stanowiącemate jak dla ryzyko kródytowe, co oznacza, ze entropia dla dużegomajątku wynosi Zero, tak powyżej. ich oszczędności średn Trzy rekordy ze średnimmajątkiem Stanowiąmate ryzyko kredytowe i jeden duże ryzyko kredytowe,dającentropię_}Iog,(}) _ l|og,1D : 0, 8113. oba rekordy z małym majątkiem stanowią duze ryzyko kredytowe, co skutkuje entropią dla małych majątków równą zeru' Łącząc entropie tych trzech podzbiorów za pomocąńwnania (6.f)
p;,mam!H^ojąta,(T): podzbiorów i stosunku frto)+ {{o,stt:)+ 3(0): O,4O5J' Entropia dla podziatu zgodnie ze zmienną majątek jest mniejsza niż entropia (0,5944) dla podziału wedługzmiennej oszczędnoścl,co wskazuje, ze podział.zgodny ze zmienną majątek zawiera mniej szumu i jest preferowany względem podziatu według zmiennej Jest to zmierzone następującymzyskiem informacji: H (T) _ H-"ią*ńT) : oszczędnoścl. _ 0,9544 O,4O57: 0,548,7bita' Ten zysk informacji równy 0,548] bita jest większy niż
.9.9 DIuns^J€u eu€ZB)Iod t4^Jo8I€ ZoZIdnłEIZpod lse| 9.73 o8ełro>pbzcodzacbte4lu'(u eu|ńz'(cop o,ł\ezJpezvrorc9óz3.{fłnp .pperg} > >1afufnul l 'Ęuur = 4afu[nul eU [|evp fu9DI JuVJ zezld ulśuelq'ivr ure1etzpodz óls ełelqz nłEIzp ,[uuvnne7.9.73 -od o8eqeurĄdo rgq'fur ue| aZ u4.{ro31e zazld plzpod,(zsłrrerd o>1e[ .nru ńuerq,'ilr 1se|o3e1e1pr r|cuur.ro;ur >1sńzfzs4ór.łł,|eu eur ,7a1bftltu,7 '&nl1zotr,1 1elzpod -eZJołzrtntrerzpodo8ełrqzouro8epz.eąu1pr|ceru:oJur>1sńze|n't.rorunspod 2'9epqe7 .qc'fuYrr1zoru z l|zsrc?|eun1erzpodo?e1z luśzcoc,E76O,O: 9L>pgwop IZ98,O _ vv96,0 : (7) $ooo H - Q) u o1nprzpod o3e1e1prlceruroJurąs,t7
r7s8'o: ((;).'o,;- (i) *" i-)i .
((:),,o,'ć_ (;)",i_)Ż:
(7)$ooo sLlPeWoPp
o1 g nlulzpod o8ełrr1zoruu1purdo4ue uegZ.e.t.ro1tpe'r4oą'(zńr ołBIuI^lou€ls $000 9L
1fzd.lepu Łtłroue]S s000 9t > p9qJop Z ^\gpJołeJnllupels z t,sa1zc$000 9t < pgqJop s.t $000 sL> p7qJop 4s nł -etzpodo3ełlr1zourelp ncyo{ .sLvE,O lauuerurze1p 1{t'4afu[nu 1se[er5 ąu|ńznp ł"1uo : 9609.0 - lv96,O : (7)$ooo}g>pgqJopH - G) n o1quzpod o3e1u1pr|ceurro;ul ąs,(7
((:) zsor: 6e0e.0: ' 0 - r:) ,a"r!-)! + 't r\0/ \s/ /t' oslperpopH : (r),ooo '(,- f :) ,aor!-)9 'z f f:) zsor: \\z /
\zt
/s
olup oI.ałro{peq oąśzśle1eru brrvroue,, *o"#|i:,;,;ł:ł:i"#lx:T;Ji"iil#:if
suzcpod ,e?np - śząe,a1"to1śper1 oąfzdr e1eur?rłrouu}ss000 0s > Z ,Ą\9pJo{eJmcÓtdz u'!lp $000 09< p?LIJop o1mrcazrd $000 0s > pgwop y ntrevpod o8ełrr1zouru1q .'fiod op ulerxtuńłrru'Łsqu1sleu .B1lq ,O lsel oc |a1 889I : 996L,O _ w96,O szlpe%ropH : (7)$ooo o1 nplzpod o8el u1p rfceutogur G)U 4stzuta1e7.9g6L,O : p9lrJopołB| ntrurzpod o8eAITZoIu e1paldór1ue,(ul Gtz t, O |+ (es t o.o) t : (7) $ooosZ> H € -atzpfeuz' cb,zcb,a' 6IZ L' O : 1t ; z3o1f - ( i ).Aof f - uu,ngr1sef$000 9(, < p gqr opelp erd -o:lue cót,t.r4ul .ełrotńpa*r4 o>1ńz,{.I e1eruŁtmouels < p9t'IJopZ /ńgpJołeJnlcóld z 9z $0o0 - aułrgr t|ny3.E8I6.0 : ęĘ;Ęo12_ 9Z > p7wop e1póldo4ue ruuu $000 G;"aotf elup oc .o?nP - €.ĄApu .eł\oJńperr1 oą'{zfu ałBIuI,Ą\ouu]s uapei 5696 s(, > p7qJop z 1^9p - *o'sć>pglpopd .Jo{eJPIo.3 _ $000gz p7wop 9óldeuulB.$000 9z> p9q)op tleurńpro>1e.l'tzrl.5ggg 971od 9.9 IIoqą z ęn1elzpod o8eł,qzou EIo {eq€ ] 1u[.ntrerzpodu1pełroaord .000 gz:pgLlrop feuuenuzrcgol rc9ou31y\ ruBu Bzrrelsop oc '000 gL .000 00I I 000 0g -lrln Knlzc,turelnłuesqo |.ulnl .euqopodŁs qc,.('lrorcgop qcduuerurz e1p ś1elzpodruvc
poórsbry49lqc'olrorcgo1efqc'(uuerurz'ffi n,#].fT1j:;,:ł;Wł"IT:xo;iło. 1elzpodaz
,c?etezprcrłr1od .u1lq 9g.0 o tc;oupÓzczso |euael]diz8n1pełrn1erzpodu1p>1s,Ł
Tabdra6.7.Zysk informacji dla każdegomożliwego podziału w korzeniu
P.d"i*ł
.**#ffiTJił.
.
0,36bita
oszczędności= małe oszczędności= średnie
2
oszczędności= duże majątek = mały
0,5487bita
majątek = średni majątek = duży
3
dochód < 25 000$ dochód > 25 000$
0,1588bita
A
dochód < 50 000$ dochód > 50 000$
0,3475bita
5
dochód < 75 000$ dochód > 75 000$
0,0923bita
Wynikiem początkowegopodziałujest Stworzeniedwóch liścii jednego nowego węzła decyzyjnego.Poniewaz obarekordy z małymmajątkiem stanowią dużeryzyko kredytowe, ta klasyfikacja ma poziom ufności l00vo i dalsze podziaty nie Są wymagane. Podobnie jest dla dwóch rekordów z duzym majątkiem' Jednak cztery rekordy w węź|e decyzyjnym A (majątek = średni)zawierająZarówno rekordy o duzym, jak i o matym ryzyku kredytowym, dlatego teżwymagany jest dalszy podział.
korzeń (wszystkie rekordy) majątek= mały ,us majątek= średni,t,s
duże ryzyko kredytowe (rekordy 2' 7)
małe ryzyko kredytowe (rekordy 1, 6)
Rys. ó.6. C4.5 zgadza się z CART, dzie|ąc zgodnie z wartościami zmiennej majątek w korzeniu
Przechodzimy do określeniaoptymalnego podziału dla węzła decyzyjnego A. zawierającegorekordy 3,4,5, i 8, jak pokazano w tabeli 6'8. Poniewaztrzy z czterech rekordów zostaty sklasyfikowane jako małe ryZyko kredytowe, podczas gdy pozostały rekord jako duzeryzyko kredytowe, entropia przedpodziałem wynosi
,b,|vzpnln1od '(ru'fto8le eqo łevpod) buueruz bzs|eluzenteu 5e| 1aLb{ou eUueIIIJzez .ezsqó18tuorzod uepef o 1Se!JSVJ o^\ezJp'(p3 szzcpod .9gołoJeZStzsąótłr eru.ted ,ńunzplm.7.9 n4unsfu Z -eZ oc ,euolz61e?zol |evpleq ]so| 9.'J oł\ezJpez ISVJ ruam -eZĘ z 1.9 n1uns,'ftz s.tJ oł\ozJpctlnułrgro4 .mg1zónqc'(ztrouśzrcnl elu 9.7J uł'fto8 -p I r.Iu?9llbs t1zÓm eqls'fusłr zełroruod.e.ttocuo1oł\ezJpo1 1se|a7 ,Kul72t611EZ.D,ou -p)zczso leuuerurzulepó18z.treprzpod od eu|'{z'(cepo.ł\ezJpelnzuąod 1.9 ąeuns'tg 'tcsouplfcfso urepó18z.tr1elzpod.łrgprzpod qc,{uoruerruś'lrl. z śzsmnrd'(ru9gerqńł\elulzłIqrc n.Ąó,ouz e1e .1|ceruro;ur1sfz ,{u1eurdqeu e|up zelułrgJ .$000 9Z < p9wop s.t $000 97, > pgqJ -op ,t '{łr11zourez ,o1śzo1zóls >1e1.r|ceru.ro;urnąs',{z o8ezsąólłr elzpóq 1vlzpod 1erur ,uazcl1qo eru Kuu uapez zułreruod qc'Łsuu '(urrsnru ze1 eru o3e1 1erzpod 9ełronuń1uo>1 -elq'.v o8eu[ńz'{cepe1zóme1pr|ceu.ro;ur 01lsel ąs'(z ,&lrr1zoru'(u1eu,(sąeruercgrłr^.Łco .€ I I8.0:0.0_ (y)pwe1ez ńułrgr1se[n1urzpodo3e1u1 'II8.0 ęyr1lc.souPzJzsoH ,O - (V)l,'oupefJzŚoH 1|cutluogu1ĄsńZ.V o3eu|'(z.(capvryÓn e1p fupruĄdo 1se['fi9łą ,lc;oup)zczso taauetutz urepó13złrn1etzpod u1p Łrdo4ue buzcb1 bmorcz e|nąlnąs zeru -^\9JoI .ełro1'(per1oł'Ł'fi eIcIł\ołłBcBI9eĄo rc9oupózczso g9o>1os'(ł.r 7'enteluod.ruez Pu,ł\oJ1se[seq qcazĄqcĄ z |ap?eł'u1peldo4ue cól.trr4e1 .ełlo1tpeq oą.(z'fi eznp lł\ou .els fiu€Ic'oupÓzczso Z pJołoJ fzcu'(pafod.1|c1n1u1 ł\eJq.Ą\,a7oul c'tg .rurercgou 1u'Ęnp -pÓzczso T{uIupeJ9 eZ IuI€pJołeJ eIIIo1KpZ U]ezeI.ełrofipe"rr1 ontzl|l ełBIul^ł\ou€}sTIu€Ic9 -oaplzczso rul'fiutu z proĄel '(zcu'(pe|od ,lcsoup)zcfso ,1 ntrelzpodo8e.tqzoru u1q . 6.9 IIeqą .tr auuza1odŁs y o8eu[,(zKcepeyzÓn e1p śryvpode.ł\lIZoIĄ
.gII8.0: (ł) "r,,I_(:) ,,o,I $000 9t < pgtłcop $0000s < pggcop $000 9z < pgqcop
eznp - Tc'oupózczso
$000 9/ > pgqcop $00009 > pgqcop $000 sz > pglłcop
erupeJ9- Icgoupózczso
eł?ru= IcsoupózJzso
v
t I
.6.9 BIoq€ J y ur'{u['{z,,{cep e1v6l,l^ n ńprzpod e,ĄAIIzoIĄ
oalzśs a1eul
0s
o4śzś:e1val
9L 001
eleru
olfzfr
lupert rupert r-upeJ9
sz
ontzf;aznp
arupeJ9 ełEIu epper9 a4np
Iuper9
8
s
v E
{głŁ|€W
oBernoilp .8.9 BIeqBI -er4e1,{z'{rt|cer1gdsep1 op y rufutfz'{cepe1vóm.trr eudó1sop'{pro>1eg
korzeń (wszystkie rekordy) majątek= małytls maiatek= średnios
duże ryzyko kredytowe (rekordy 2, 7)
węzełdecyzyjnyA (rekordy 3, 4, 5, 8)
małe ryzyko kredytowe (rekordy 1, 6)
oszczędności= małe
małe ryzyko kredytorve (rekord 5)
oszczędności= duże
małe ryzyko kredrowe (rekordy 4, 8)
duże ryzyko kredytowe (rekord 3)
Rys.6.7. Drzewo decyzyjne C4.5: postać końcowa
w korzeniu) i Że oszczędnościsą również wazne. W końcu, gdy drzewo decyzyjne jest całkowicie zbudowane, algorytm C4'5 włącza procedurę ptzycinania (ang' pesimistic postprunin?)' Zainteresowani czyte|nicy mogą zajrzeć do pracy Kantardzica [4' s. 153].
6.3.Regulydecyzyjne Jednąz nĄbardziej atrakcyjnych za|et drzew decyzyjnych jest ich zdolnośćinterpretacji, szczególrnieZa pomocą reguł decyzyjnych. Reguły decyzyjne mogą Zostaćzbudowane z korzenia do liZ drzewa decyzyjnego po prostu przez przechodzenie dowolną ścieżką ścia.Pełny zbiórreglil.decyzyjnych stworzonych przezdrzewo decyzyjne jestrównoważny (do celów klasyfikacji) z dtzewem decyzyjnym. Na przykład z drzewa decyzyjnego Z rySunku 6.7 możemyzbudowaćregułydecyzyjne dane w tabeli 6.10. Reguły decyzyjne są w formie jeżeli poprzednik, to następnik,jak pokazano w tabeli 6.i0. w przypadku reg\|' decyzyjnych poprzednik zawiera wartościatrybutów na|ęząTabela 6.10. Reguły decyzyjne stworzonę z drzewa decyzyjnego z rysunku 6.7
Poprzed
NasĘpnik
,
Jeżeli majątek = mały
to dużeryzyko kredytowe
Jeżeli majątek = duży
to małeryzyko kredytowe
Iezeli majątek = średnii oszczędności = mate
2 I 2
1,00 1,00
to materyzyko kredytowe
ó 1 ó
Jeżeli majątek = średnii oszczędności= średnie to materyzyko kredytowe
2
ó
1,00
I
1,00
Jeżeli majątek = średnii oszczędności= duże
to dużeryzyko kredytowe
ó
1,00
I:!
. G Ą [ \ a_ oa,az: 1l|s)p l Ą t l a | ! { sa p1ę ((1.9) elueum9l) JSVJ n1ezpod un!re1't-rąelnz11eur'ts1ual snrc$-IDqtloul|euue:ioolz3n1p ...pe13l3de5.....peuJ?ul -JeAoN.. ...pocJoAlq..ful snp1s .a.tr trerzpodue1 .([..pełropl1Y\... 1ołlltlul) euur enps,(zs^rZ€Jo awnoz qn1euzÓvnz ńqoso 3u lueł€Izpod ur'(uuulq Z SnlD$ -lDłlJDu||euuerurz8n1pe,u\arzp yez:r:iłJSVJ nru1fuo81eru1ped'tzrd16 .fa.trurdod rur .oruolzod -?'IT oluo4s od I ureruezroą z eueper.trgń.t urqąru1s [u1n; 1se|e'tezrp !ełre1 .8.9nł -uns'{reu errezn1od1se|ISVJ tufro81u zezld auemopnqz eu|śzścep o^\eZJC..Ą\9pJoł .eJ 000 97 Kcbzcn lgtqz cb|epeqtuVJ ursru1fuoB1eZ (9v) iufro81e ,(uełrozr1enp1ez) g.93 nu4'tro8p uruuułrgrodop o1tzn eul1ueuelJ €Iu€^\ourer8ordg .e]órunsezrdK1u1soz Snpls-In1uDutI SSDp4]ołtqce1nq'{4u,tr ruo3e1a1q)|21pezlZ oJ9DIoIN.I op 0 po nł?zp .eue,ttozqeturouzś1e1soz -ezld z rc9ope'tr bs er$sńzsrvr e4 e,ĄAoIc9oII aUUgIuiIZ Ąel .'(qltńc llels - Snlu$-lDquDru .eruetupnłez |vzpol - ssopłJol^ '9a1d- xas .esEI -
a)Dt
:emolcgoąe|euuert;;z . .nlupoB'! łr '(curd ulzpo? eqzc\4aau-"tad-slnoq .n1u1rde1 B]€r1S - sso1-1o1ldoc 'np]1du1 lsor.(zrd - untB-1o1tdoc .ó1neu qcńuocótzvrgod eu 1e1Bqzcą- ulnu-uo1!0)npa ,ąaln- a8n :o.Ą\oIc9oII euUeIaIZ . 'qc'(cbfnsrdoqc'{uuenuzruorqz oB -ectlndó]suu erlrre1spod ?u .$000 09 vlu '(zsleruruńzc .,{zsąórłr1se['tqoso |ep4eĄpglłcop śzc,b,|cengśsupl IIIB^\oseJelu|eZ ńur9e1se[|e1n1.e1uro;lluJ Jo '(1lsre'rmn [9] fuo1rsodeg 8utu.lee1euIqcBIĄeul^{ Z aIJeIue]uIłr ńudó1sop1So|I VSn ^\Ic9oupnl nsrds qc'tuup z [9] o8el'reqo; zazld tuozlo^\]nłelsoz (1;orop) ąnpo qctuep lglq7'qcśuep ezrotqz urń1s -ll,ttzcazl €u eulluelue13 tcoruod ez qcśutśz('ep^\eZJpózl1euedurefnso]sezetudfise5
qc,tuPp qcĄs1mńzcozJ op .?.9 ..:..;, qcńuemosolsez olueuttlgJod IuV3! 0.93m9uilJo6le .Ic9ouJnłrguorzod qc1ąosńzvr Ąel1ewelzpods Órs vr7'oln e|u,e|elzpzolpod tu'{udólseurn 4u| qcr1el,qcepe11śzrdqcĄs -ltytśzcezlł\' .00.I = o/o0OIurńułr-orIcgouJnureruolzod ur't1euoąsope[n1ln1s oc .e1s',(zc .zrrrrzpłrerd .nrcs Łs eIcgITer11sńzsłrqped'(zrd ru'Qeur u'(1 qcfrgq u1n8er u1p 1se[ ^\. .ercgq -ł /Y\ .ĄĄgpJołer eu e|nzu>1słr p8er o8euup op euesrd'(zrd bs er9q ]uecord 99ou111 .qcńuep ezlo|qz lrr Ą\gpJo{oJ e1cluds6 Ęugcord op órs Isoupo qc'(u|'Łńcep ;n8er .ntJ'II łr leuep n1ec |euuerurz rrro8e1e199ous^l elelfu\ez>1rudó1suu '(p3 sezcpod .o^\ozJpzezld t>1zalc9leuep op qcfc
|n|'Marries'] [ fiBd€ : <=50Kl {,l1,Ia]} Ma*ta|-slatu9 [Mod€ : *5BKl {8'2sł ?- educa.|ion.num<0,g33333333333333 lMode:<-50K.'(7,9S0) 1 +- capllafgain'S.050SS$509555SS55 1 8B5d5€ : < = 5 0 K(.?j ' B 1 1 ) I i } c a p i t a t - l o s s { B . 4 1 1 7 3 0 9 4 5 8 2[ M I i I i " e d u c ł l i o n . n u m < * ' 5 6 & 6 6 6 6 6 6 6{8M8o6d6e7: < c 5 t l K*. } < * 5 0 K{. 1 ' 3 0 8 . 0 ' a ! 6 } ,, i i i. educ*lion-num >=8.5866666666666s7 I Mode:*50K. I .) <=5$K.is,3s3,0.69) '' caplt.t.log.>=0.41173094582.1 855 l H0d8:'50K } Ć) >50!({279,0.731} I t l tąpila|.sa|n'.B.0509555095550s55 |Mode:'5!K'l c} >50x'{402,!.s7o ; ' L''',, i: 0,833333333333333 l Mode:>sBK.l{3.48B) l ł' edułalion.num śs,050ss56B95558955 t Modg:>50X.! {2.970) | ę. capita|qain Dapilaflgss<0.4118457300275ds {MqdB:*30K.} {t,6SS} M hours-le:-week<8.3316:2653C61224 + =|.33163265306122ł (M0dg:>50K.lc} }5|!lt.{?.4.l8'0.6dg} . . j l.. capital.|'gs'=0.411845738027$48 lMod€ : b$oK,] s >50lt.Bc1'ł'ss} : : j r- rapital-galn '! 0.0509555095550955 [ Modt:'58K.] c] >58x.{51s, !.994i L-Maritai_$tatu*inl"Sivorcsd""Never_marrisd""geparatsd"'Widowed'lll{Bde:<*50K,1 c*<*51X.{13,205,0.936)
?, i | . : a
Rys. ó.8. Drzewo decyzyjne CART
dla zbioru adult
Zauwazmy, ze tryb klasyfikacji dla każdej krawędzi jest ( 50 000$. Galąź oznaczo. na etykietą,,malTied'' prowadzi do węzładecyzyjnego, z kilkoma dalszymi podziałami. Jednak druga galąźprowadzi do liścia zkategoią < 50 000 dla 13 205 takich rekordów z poziomem ufności93,6vo.InnymiSłowy,z 13 f05 osób ze zbioru danych,które nie s4 w danej chwili Zamęznelub żonate,93,6voma dochody równe najwyzej 50 000$. IJwaza Się, Ze podzia| w korzeniu wskazuje najważniejszązmiennądo klasyfikacji dochodu. Zauwazmy, że podziaŁ atrybutu marital-statzs jest binarny, tak jak wSZyStkie podziaty dla zmiennych jakościowych. Wszystkie inne podziały w pełnym drzewie CART pokazane na rysunku 6.8 dotyczą zmiennych ilościowych.Następny węzeł decyzyjny dzieli wedługzmiennej education-num, oznaczającej znormalizowanąIiczbę lat nauki. Podzia| wystgpujew education-num<0,8333 (tryb ś 50 000) vs educationnum> 0,8333 (tryb > 50 000). Jednak jaka jest właściwa|iczba lat nauki, która jest reprezentowanapfzez znorma|izowanąwartość0,8333? Normalizacja przeprowadzona automatycznie ptzez Insightful Miner była postaci T7 ^
X
zakres(X)
max(X) - min(X)
i jest odmianąnormalizacji min.max. Dlatego wymagana jest denormalizacja, aby zidentyfikować początkową wartośćpola. Lata nauki są z zaktesu od 16 (wartośćmaksymalna) do 1 (wartośćminimalna), czy|i 15. Dlatego podczas denormalizacji mamy: po If,5latach X : zakres(X).X- : 15(0,8333): If,5.Zatempodzia| następuje nauki. Ci,którzy llczęszcza|i na studia, mają tendencjg do wyzszych dochodów nlzpozostali. Co ciekawe, dla obu poddrzew capital-gaini capital-loss reprezenĘą następnedwa najważniejszewęzłydecyzyjne. W końcu, dla grupy osób o niższympoziomie wykształcenia ostatni podzia|jest znowu według education-num, podczas gdy dla grupy o wyższym poziomie wykształceniaostatni podział dotyczy zmiennej hours-per-week. Sprawdźmy,czy ktyteium podziatu zysku informacji i inne cechy algorytmu C5.0 doprowadzą do drzewa decyzyjnego, które jest znaczącoinne, czy tez w dużym stopniu podobne do drzewa zna|ezionegoprzez kryterium podziałuCART? Porównajmy powyż-
. .(łrgpro1eI $000 09 |ez'fulodp9tlcop ZaIuMgIuur 99 D n1e1rdzą .$0o0 ó1er1sŁzqóIł\ ITeIIuKzrglĄ,qc(1z 99ozqórłr .er,tł.1syelłtrcezrd 16 09 |ezruod '(p -oqcop zlu qJIu z l np1rde1ó1e4sŁ1uurzru (łrgpro1el9gI tO lzpn1 99ozs1óą6 99ozs1órłr .n1e1rdeą nąs'fu ruepó1?zlrr.n1elzpod o8ezsletugezclv\op ul'tuqopod luecJoz.lt az sso1-1oltd -oc uap313złr e|nd$seu tretzpodr8n-lp ntre1rduąrue1sor'Łrd ur'{;eru Z ł\gpJołeJ BIC .(mgproąer 99OI lrl.Icezldtzo td n1u1lda1urelsor'tzrd ru'Łnp z zru n1eyden ue]sorfzrd ul'fieru Z ^\gpJołeJ|ocórłrt|zul ez 51eupe[ńtuze lrline7'19dqcq1s,tzszvr 1se| ę7 BIp ^\gł€Izpodqc,(tlrr1zour qcrq1s,fusłrp9J91Y\ '(u1eruń1do l|cuurro;ul ru1sńzurnue1'(n1 o>1u| .$000 po ezs|aruur'(poqcop €ru zezld śuelqś'tr łu]soz tsgla,1evpod 1se|o1 09 $0989 ZIu ,l1cś1z ułro1odp€ u od .$0989 : (9890.0)66666: *X |e1uulo 1s9r'(zrdpl1deą qcfrgłI .(y)se.quz - y o1uleueł\ozllulluouep tse|99ouułl .(6 ,(u1eu4urju.666 66,(upru'ts1eul) .9890.0 erju $666 66 rsou'{łrqc'(uep azlo|qz ru'(1łr np1lda1nlsor',(zrd seDpz Z€ł\eluod -orzod ur'(rrełrozrpllJJouzluplsru o^\ołunso]s eu efnd$seu l utll3-1tl1tdtl;n1nq,(4e3n1p .nruezJoł ł\ -ezrr nuezJoł łr [e1n1 ]se[ 1serurqc'$uuóls tful.ĄĄe|odecluzgg 1ulzpod .qc'(uupqc'{rrresqc't BIp euĘuetualJ zezłdulśuozlonls uu ru,{ueza1odo.sJ ur,(u|ńz'{cepue1ńezJp Z IuVJ eu['(z'(cepo'i!\ezJpazs 6.9 ru1uns'.fu o.Ą{eZJQ.ó.9 .s,(u łnpD nf,olqz'€ I p 0.9J autśzścep
.{/s} .ilDs{ .n *J {6s.ff } t,0stl/se { łaallń.Jfrd-sJncu * I.y0!c :apny{ 'ag}'H0${ 'o {ssa'o {,: ['Hfl!<:apoil] esBgge < a6e l ; 's} 'H{ts=r :aprnJ eggggg'g=' ane j {teB'! {: I'}ł09=e i '0 kn] t'ygs* :apcn] ugt l/ge =}ąaa*r.lac.slnn(.$ { S S n ' t l}' H U $ q: a p r nI f g O O O t S S O{^unl e f i l e i l d e i-{ 'XoS<:apofi .ę {lg l} [ ] lngf 00gg'[ l u s =''a p o p] 1 g g g g t . 0< s s n | 1 e l | d t 3ó .xug=e * -f pamoplM snłĘłE-|Eiuen {o.L'r) {: [.x09=':apop1] i 't} 'Xng=> -: j {n'l {= ['Xffg=":apfrn] pateJsdag= sn1e1g-lEltJelrl 're} .H{I$=> = snlels-łE}uelĄ.] {o.l [.X0E=':6pil|l'.ł ] pa|]'lguJ-lań*N {= i 'Bet) .il09{ -.l {r:.0'n {: [.}łns{:apsF!] pailB}i|: sn|e]$*|E}lJE}| i '! .}|09=} ^i ! {n'i l} ] pa:joltl|: sn|ts$*|eł|JEl''l {= [.NBg=':apotr{ U B t ) [ ' X 0 9 .: B p 0 HI / g B E g !U = >s s 0 l - l e f g d e{r {SSf}['Xngo:apofi] 6ES6B9tt'B < sssHelldel ót 'srr} '}|tl$=> = snlełs-|elueW (J :apog pałnop|M {sts.ł ['X0$+ ] : <ł.,unu-uoĘĘ3npa tro} t xos=' :apo$ł ] L00BBB0B.0 € ; 'Bsg}.}|09=> .H09=':spBr{ -> irlnu-u0ĘErnp€-j j {616* [ ] t000B00B.0 € {Ig$ ['Xgg=':apog] paleiedag= sn1e1g-le]trfl{ .6 } < ilfiU-Uol}E3npa tłtr.l} [.fi[$* :apo!1 ] 1,00B0008.8 .}|09=> {*sg.t'l,zt,s} { : i . X 0 s = , : a p a ł l lIo o g o 0 0 8 . 0 = > t ' u n u - u o q e -r in' p a .1s$=> .{ = sn1e1g*1e1yep1 :apolrJ tr lg,a}t ] pa|łłęu_Ja,\aN :apoyq < urenleltdxr.s i {S*}[']ł8C* I p66tt 1.090'8 .apa6} tggt[ l6s0.0=>ulrF{tild?3 ..'d I {rsł't]t,i[.}'|0E=> 'n {sse li ['X09=':aprg] paueH = snł?ls*|Bł!lę$l ć ':ee 'e} .l09=r *j - f ' f , l / , v a * i ' u P v l t { l P :apow ' ' | ł & ł B | * ł != . ! I5n}Bi$-|eiilPfi l*ji {słs.n {: {.X09=eg { . u . i | L ]J - paxjoA|o .$ {gBl'{f} ['H[g=' :apoy{ ] 66q6$gt!'n * *sug1*11der
I
-ó =eu|*filg}ldBr :apop'1l {trs'cg}[.}'|09=' 166g6!ssff,0
Dla rekordów z matym zyskiem kapitałui matąjego stratąrozważmy nastgpnypodział',który jest dokonywany według zmiennej maritial-status. Zalwaz, ze algorytm C5.0 zapewnia osobną ga|ąźkazdejwartościpola, podczas gdy CART byt ograniczony jedynie do binarnych podzialów. Potencjalnąwadą strategii podziału zmiennych jakościowychprzez C5,}jest to, ze moze prowadzić do nadmiernie rozgatęzionegodrzewa, z wieloma liśćmi zautierĄącymi tylko kilka rekordów. W rzeczywistościdrzewo decyzyjne pokazane na rysunku 6.9 jest tylko fragmentem dużo większego drzewa Stworzonego pt zez oprogramowanie.
?- łapitgl.g€ i n <*0.&68490997l Msdg:c'$łX. ] {23.s31] <:$0K. <=0.416SB$89[Mode: 1 9. capital-lo*s | {23,165}
Diwr{edIMode:*{0K"1 c} *=S0r.{3,:s7,CI.S25) f-' tvlaritat_$tatus= = t {10,365} f- Uaritat-Statusl{arriedIM0dB:<-501{. <=0.il$[1310[1 [Made:<'$SK.I{18,?8[] ' $- r*pital-gain ' l s e d u c a t l ł n . n u m { = 0 . s r $ slsM0 u0 d1 B : { ; $ 0 H . ] i 7 . 6 1 1 } <=ł'0441s060ll Mode:<.$0K'l {7.ss4} ] f- capltel.gąin capital-gain*0.04'101 IMsdsl*5ilK.1 .$ <*5llx.{7,$1S,*.729} I I I l- rapilal.gain >0'041n1[ Mude:*$0K.] Ę} >50K {{s,0's23} i 1 j L- capital.gain: il.0441 6in01 [M6dg:ą=50K']c} {*${llt.{47.1.B} e50!{.1 x 0.S000fl001 il,S$$i *' sducation-num [ M6S*: c.5&K.i * {*50X.{33S,S.$7) <. 430'l i]cilrs-per-wesk 0.35i1 lMods: f i |- hcur€ . pel*wsek } s"35?1 ' 4301 IModB:>50K'] * }$0l{.{?,33s,*.e5} L eapital-gain } [.*ts131001[Mgdf: }5sK l c} }5sł{.{ss.0"s53} " Marital_slatus. 7,0.s87) Nsvsr_marrisd {s,01 JMsde;.*$BK.I cł {=$01{. . Marital_st*tus = $eparatedIM0dp:d-50K.1 c] **5llx. {rB1, 0.ts} i- Ntarital*$talus. <'i0K ! c} *=$01{. widow*d{}dode: {73s,ll.ts4s} ! p fi.416s9s99IMgde:}5łK.] c} }st|t. {75s.ff.708} : r. rąpitaF|gss 1 t-, rapiial-gain F S.0S84S0ggf IMude:pEBK.I * >59K.{1,!S9,*.SS3i i I 1 |
minimalnąliczbąrekordóww każdymwęźIedecyzy1tym Rys.6.10.DrzewodecyzyjneC5'0 z określoną
W celu uniknięcia tego problemu analitycy mogą zmienić ustawienia algorytmu, aby wymagał minimalnej Itczby rekordów, które mają zostać ptzekazane do każdego z poddrzew. Rysunek 6.10 pokazuje drzewo decyzyjne C5.0 zbudowane przez oprogrźrmowanie Clementine dla tego samego zbioru danych, tym razem z warunkiem, aby kazdy węze| decyzyjny miał minimum 300 rekordów. W ogólności,decyzje biznesowe lub bada,wczemogą być podejmowanew zalęznościod minimalnej liczby rekordów uważanej za lmoż|iw iĄąc ą dziaŁanie.Ry sunek 6. 10 przedstawia c ate drzewo. Znowu, podzia| korzenia następujewedług przyrostu kapitału,z podziałem wzg|ędem Ę samej wartości.Ęm razemjednak, gałąźdla większych przyrostów kapitału kończy się liściem,zawierając1065 rekordów i przewiduj ąc, zpoziomem ufności98,37o, ze właściwakategoria dla tych osób to dochód większy niż 50 000$' Dla pozostatych rekordów drugi podziałjest znowu dla Ę samej wartościtego SamegoaĘbutu co wcześniejcapital-loss. Dla dużejstraty kapitałuk'rawędźprowadzi bezpośredniodo liściazawierającego 756 rekordów, przewidując dazy dochód z ufnościątyko 70,8vo.Dla tych z małymprzyrostem kapitałui matą stratąkapitałl, trzeci podziałjest wedługstanu cy-
.a|ve[ ulf,ppł 1(\ 9'oupoJouzglx1ll|oz .IIBu{$IBIuz św \el,elcgł19śzłołr1s b|nqgrd eu|'Ł'{cep ezrrrezl1:zs1e1 śzcBp.ł\€Jd ć99[eqoo1 'turezourqgsods pp|łt. 6r|cu4g'(sep1op eu[,(z'(cepvMeZJp 9eM .u'rrrorcgop -oSo]SBz olupergodzeq ńurezou '(z3 n1ec Buuenuz EzSEloe7:,śanqgłez,Z 1se[ ..trg1elzpodqc'Łs1ep .Ępud'furd ełr1zour zsrdg . I ?|qou uu?ou eru,{perr1
[N
'(9002 .uOIoqoH.oJuelcsJełul-'(eu11 ,s1apopy pun SpoulałV ?ulutqyD4DQ,esoIE-IIe1u€CI
.866I .eutzt4.ecuetc5 .BIIIJoJII?J re1ndulo3 pIIe uoĘeluloJul YJ Jo 1ueuegudeq Jo dlrsre,truq 'Turfr{'z{-rolrodeETI^J/uJpoTuJ-/npe ' T3n. scr . /vllvvv\/ / : d1?q .sas€qelu(I 8utuue1 aulqJetrĄ '(ro1rsodeg .zJoI^J.I .J .ełBIg .T .J '9 Jo IJn '966I UO'plruluod'8ututy4JDto(IpuD fuanocstq a?pa1uouSluo acuantuoJ lDuorlDuraruIpuz atp{o s?utpaarord,plJqfq ee.rluorsrcep V :sJegrsselcse,{eg eAT?uJo ,(cerncce eql dn Sugecg .1nsqo;tr,(:uog . .ecuelJsJo1ul-^elł$. g00Z fN "uołoqoH ,sułqillo81y puo śpoqpry .SppotrĘ,s1dacuo3 :?utut1y opq ,uzple1uux peuqentr .7 L
's
'7661 YJ'orsrruurc ue5 .uuuur;neyue3ro6 ,8ululna7 auqJDW lot sulol3old :s.Ż).ue1urn} ssod .I '966I .re,rryelppegreddn'uorpcnpg fN uoSJBed.uot|1u?ocay IuailDdq?nołrySualqotd3utut741o1oą ?uta1og.ueruddt1 7 .1'(ung 'z pJeqcł{.peeu .CIreqdo1spq3'tog uen urure|ueg.eeT unqcn^.'(peuue;'1 't86I 'uopg ?Jog 'sseJd ,saatl uotssat&ag Td JUJ/lleH ry ueurdeq3 puo uo4nc{tssolJ .euo]ssoIJ€qJ .ueqs1gpJElłcIu.u€tupaud eluoJef.uerurergoa1 . I
BJnlet0il'l'9'9,:,,' .'fin1ere11 l ł4undzxeqoz\ącśu|śzńcep trn8er eruezJo^l]I ITopou ellle^\opnqzazld qcŃmp eruułro1o8tzłdpo .qc'(uep ezrorqz ur't1s -lntśzcazl qc(u|lzśJap eu .Ą\eZJp e:oJełezp Bcyoł op n4tzcod po ?vpel,azrd '(qy '^zrlwJeezslBp eue8eruńłr9fq t8ou o3e1e1q.lc9ou[e1o1qcl op oc óls Łfuzpe?z eru e1u.eulo1srts e1od e! ez .Óls b|ezpeBz elepotu eq6 .nlupo8'$ .tr 'tcerd ulzpo? eqzxll,e7,ow cńq .l n1e1lde4 .'(qr,tn'(cue1serłr11d1Łłraru €1€4S l >1sńz.eruec1e1zs1'{łr ts rur^,(uuerurz lulśzs|aluzu^r|eu ,pey4f'zldeN .iur.u śzpÓlanqcńupo8z AoJBZsqo qc.Ęnp z elceurro;ul eulo1slcelqaz śulaz -our leruuraru,qce1o?azczsłr eupo8z ts elu g.93 eutśzścepewezrp ZeIcoqJ J6VJ I .śrylzpod ezslep b,s ellvzentzolruDlsyezłBlu nnzblnz n qc'tcbfe1sozodqgso BIC .Ic'ouJn rureruorzod1ulśuv9lz $000 gg |e1uul|.eu oc pgqcop ctf -nprłrezrd.Ic9lIop orupergodzeqbzpenold etz31e8..peuIBIu.. ezod o8eqrrvr'(cnue1srcg .o8eupłr -oueł\ qc;ąlsńzsłr elp eq,ńanzunne7.e1odrcgogełr !ep7a1e1pbtz6p? tuqoso z
Thbela ó.11. Dane drzewa decyzyjnego
wi€k Ustugi
kobięta męzczyzna męzczyzna
Zarządzanie
męzczyzna kobieta męzczyzna kobieta
Sprzedawcy
kobieta męzczyzna
Personel
kobieta męzczyzna
25 33 f5 35 26 45 40 30 50 25
48 000$ 25 000$ 3s 000$ 45 000$ 65 000$ 45 000$ 70 000$ 50 000$ 40 000$ 40 000$ 25 000$
4. omów Zatety i wady drzewa binarnego or aZ b ar dziej rozgałęzionego. Rozważ daneztabeli6.1I.Zmiennącelujestwynagrodzenie.Zacznij oddyskretyzacji wyna5rodzenia w nastgpującySposób: o mniej niz 35 000$ - poziom 1, o od 35 000$ do mniej niż 45 000$ -poziomf, o od 45 000$ do mniej niż 55 000$ - poziom 3, o powyżej55 000$ -poziom4, 5. Zbńlj drzewo klasyfikacyjne i regresyjne, aby sklasyfikować wynagrodzenie na podstawie innych Zmiennych. Ztób tak dużo,jak mozesz, ręcznie przed wykorzystaniem oprogramowania. 6. Zbudtlj drzewo decyzyjne C4.5, aby sklasyfikować wynagrodzenie na podstawie innych zmiennyeh, Zrób tak dużo,jak możesz, ręcznie przed wykorzystaniem oprogramowania. 7. Porównaj dwa drzewa decyzyjne, omów za|eĘ i wady każdego znich. 8. Zbuduj pełnyzbiór regułdecyzyjnych dla drzewa decyzyjnego CART. 9' Zbudll1pełnyzbiór regułdecyzyjnych dla drzewa decyzyjnego C4'5. 10' Porównaj dwa zbiory regułdecyzyjnych, omów za|etyi wady każdegoz nich. Ćwiczenia praktyczne W poniższych ćwiczeni ach ńyj zbioru danych churn znajdującegosię na stronach internetowych książki. Znorma|izuj dane numeryczne, tozwiqż problem skorelowanych zmiennych. 11. Zbuduj drzewo decyzyjne CART. If. Zbńuj drzewo decyzyjne typu C4.5. 13. Porównaj te dwa drzewadecyzyjne, omów za|etyi wady każdego znich. 14, Zbldtljpe|ny zbiór regułdecyzyjnych dla drzewadecyzyjnego CART. 15. Zbuduj pełnyzbiór regut decyzyjnych dla drzewa decyzyjnego C4.5. 16. Porównaj dwa zbiory reguł'decyzyjnych, omów zalety i wady każdego znich'
.9'ołJB^Ą\ bupe| qcru z śzłon71(qc'(uup nf,olqz łe| |euel 1|cąungbcourod ez pe1n(zld €u qn1) rvrguorneuo3 qcńc?|ezpazldod z (]r) er'rolcglełr't1uu8ńseJeIqZ uoJneu ńuzcryz5 .qc'ilrouomeu lcels rc9ozs1ónr łr fue't.r&s'(z.lo1,łrrnuoJneu o8euzcn1zs Iepou Zeru.ł\gJ erme1spezrd1.1 >1euns'tg.|e.to8ord lc9otJe.ł\|aułrednruezcoDlezrd od .uosąe zazldod A\guoJnouqcfuur op uue1fs'ilr 1se|er9u1 ,(,.3u7l{,,.8uu) uo1dez- 7pe1łrodpob,,rrorur1 -eru ctzlołr] .ełrorcs|ełl'{treu8'(sezlvm1azld uoJneN .ł\guoJneuqc'(uut po ecbzpoqcod '{1eu3fs ecb|vnlqz 't/rpuap BIu uoJneu ś1slnśzcazl.1.1 n1uns'(r eu ślllgl1eze{od{ef (esore1 plwqJ
u^\lsJolnunuomeu łeunsfu) nuorneu o8euzcn1zslepou z?Jo uorneu.&sr.tt'{zcez6.1.tr.s,(g
=K+\-.-.
--'-----------/
)=;
,azfiloeu .o8e.ttoruqeruuruezcn qc,{ueąń1ods qcfłrouoJneu łr gculcels zu e|ndóls'{ł\ eJ91ł Blue^\op€Ig€u tqgrd bumńlrulfud ozpftqbs (s4loułau oruper.todpo | wpo^uau lzJnau .8uu) plf,tłouoJnou cenśzeu '(ulerzpóq pĘpo ero14 .o,łtouoJ lDJnau plc{t1ltl ltuulJals .nau !co!s ouzJnps 'l7cśuzcś1deu'{s q'(zc .ggg0000000000001eluzcb1 9ezc31od 9I0I qc'(uur 0000I Z olupeJs śuozcb1odśp.eĄ.,t.rguoJneu elep oc ..tł.guomeu rr0l ołoło z óls BpBpIsB>IeI^\ołZc 3z9u .ołropep1śzlą.&ocJoZ1Y\ errrervreuzodzoll e|ce1g'(se14ąe| eqel .óts Bluezcn e|Uepezeuełro1qduro1s ezoru ^\ouoJneuqc'(uozct1od eruuref 9ełr,(uoą'fuYr -3Z^lDI]BISe1só3.ółropnqt]sord oł\ołunso]s€Iu uoJneu'Łcu'{pe|od eZ oIuIW ..Ą\9uoJneu dru3 ?qos śzpÓul qc'tuozct1od z órs b|upe;4slbznlnz qce?zgul.t órs ectzcn '{ure1s'(seu -ełroą1druo1sez .ercf.rąpoo1'(qqc'{łrouorneuIcels qc'{uzcn1zsBIueZJołusop Łlcurrdsu1
0rn0u0lnou !co!s
Suma ('). otrzymany wynik jest wejściemdla funkcji aktywacji (zwykle nieliniowej), która to zwraca sygnałwyjściowy (y). Sygnał wyjściowyjest następnie przekazywany do nastgpnychneuronów. Z jaklmi typami problemów sieci neuronowe mogą sobie poradzić? Jednąz za|et stosowania sieci neuronowychjest to, ie sąodporne nazaszl,lmionedane. Poniewaz sieć sktada sig z wielu węztów (sztucznych neuronów), z wagami przypisanymi do każdego połączenia,sieć moze sig nauczyć, jak postępować z tymi elementarntze zbioru danych, które nie niosą zadnej informacji lub są błgdne.Jednakże,w przeciwieństwie do drzew decyzyjnych, które tworzą intuicyjne reguły, zrozlmiałe nawet dla laików, sieci neuronowe są stosunkowo trudne do interpretacji, o czym wkrótce się przekonamy. Ponadto czas uczenia sieci neuronowychjest dłuzszynizw ptzypadku drzew decyzyjnych i często przek'raezakilka godzin.
orazwyjściowych wejŚciowych sygnałÓW 7.1.Kodowanie ffi..;..,.... Zawadę sieci neuronowych mozna uznać koniecznośćkodowania atrybutów (zmiennych) w pewien standardowy sposób, a mianowicie taki aby wszystkie dane wejściowe przyjmowały wartośćz przedziałl od 0 do 1. W dalszej częścitego rczdziału, gdy będziemy szczeglłowo omawiać algorytm propagacji wstecznej, zrozumiemy, d|aczegota standaryzacjaaĘbutów jest konieczna. Ęmczasem zastanówmy się, jakmozna standary zować wartościaĘbutów. Dla zmiennych ciągłychnie jest to problemem, co omówiliśmy w rozdzia|e f' MoZemy Zastosowaćnorma|izację min.max, czyli przeskalować zbiór wartościaĘbutu do przedziatu od 0 do 1: X - min(X) X - min(X) Al , 4 _ -
r"kt""(X)
-
max(X) - min(X)
Metoda ta jest skuteczna, dopóki znana jest minimalna i maksymalna wartośćaĘbutu, a wszystkie nowe możliwe wartościtego aĘbutu sązawarte między nimi. Sieci neuronowe Sądo pewnego stopnia odporne na niewielkie naruszenia tych granic. Jeżelijednak przewidywane jest poważniejszeich przekroczenie, możnazastosować dotaźnerczwiązanie,takie jak odrzucanie wartościatrybutu spoza dopuszczalnego przedziatu lub przypisywanie im maksymalnej lub minimalnej dopuszczalnej wartości. Atrybuty jakościowesprawiają o wiele wigcej problemów, niż mogłoby się wydawać. Jezelri|iczba możliwych wartościprzyjmowanychprzez dany atrybut jakościowy nie jest zbyt dlza, można stosowaćznaczniki (flagi) informujące o wartościatrybutu. Na przykład wiele zbiorów danych zavtieta aĘbut pteć, ptzyjmttjący wartościkobieta, męż'czyznaoraz pteć nieznana. Ponieważ sieć neuronowanie umie poradzić sobie Z atrybutem w tej formie, mozna zamiast tego aĘbutu posłużyćsię dwoma znacznikami: znacznlkiem czy klbieta? oraz znacznikiem czy męż'czyzna?Kazdy rekord zautiera|by wartościkazdego z tych dwóch znaczników. W rekordach przechowujących informacjg o kobietach znacztik c4l kobieta? przyjmowałby wartość1, natomiast znacznlk czy mężczyzna?byłby równy 0. W przypadkumęzczyzn, sytuacja wyglądałabynastępująco:
ulelac uI'{ZsBuez '(ur99nd'(zr4.urń,torcs|'it.rrueuor DIIPI eu qc'{u"p luolqz lse| łelzpod -neu z o>11'$ rcers € u ?oru r[ca1g'(se1ą u€ p BZ qJDI1S'&słrop olu ł€upel u'{upe| 9.{zn 'Kutzpa:zpleuup z,uggedqe ,{ueco ZeIo eluezcwTł\9opetłre1spodeu .t.rg8orderuu.t.t.osudop ezslelupupr1op }sa[ euu,colez 'Dlu0tLzc proul nuotc;Kn qeza| o 4faru,m al4os(łł ozproq o>1utinr1g'(seplezoł,9L.O < ?,o1t0AĄ loluDlLz) lc;oufifarułnaqosQu o1e| tn1g'(se|\ez oł,sL,O > ornolc;f{u ?,o1tDAĄ> 9 .0 71eva|o '.DluDlLZJrJtou -ńfarun auńtcazld o4u| |n1g,{seplezol,s,0 > auolcs[Ku ?,ouuAĄ > 9z .0 qeva| o loluDittz)
D;ou
.1Ó[arulnauono1spod o>1uitqg,(seryZ ot,9Z,O > ouotc;ftu )souD/|Ą} g 1eze[ o :qgsods'(cŁ|ndólseu.Ą\?€^\olugopz Kunzoul r8ord n4pedKzldu;l\et ł\ ..ĄĄgluzcn qc,(cb|nsrdoqcec ezrc|qz uińułred eu órs cblererdo .|eAołre1spodĄo1zs eZ MgIUZcnv:tu -elfizc '(uecqc az,pvp1śzldeu Ńlzg1v7.euełroąpŁzrodn ous 9ełro1g'{se1ąs 99ou1ó|errun -e| ts auo8e1eł fp8 tuurvroso1szel:ulrrgl9śqezoul ń.t.rorc9|'fuvr uoJneu ,fucu'(pe|o4 ''{rurg3n1snz Ó|ceu?tzel oąulproąer elm1g'(segez ru'ilrolc9['(łre17ółrm ,,,Lg,O ( MZc,Ąó'9,ĄA ouolc;ftn euevl(zl7o7L.0euwgl99ouu.ł.r ?,ouuM q9e|...u[cuu?śzet, >1uiep1e1tsu11 zeIO oąu| ńurr1elsn39rd ,pe14(zld eu tp9 ..oelue1s'(zloąo, *e|ceu?Kzel.. uu ouorrvre1spezrd blbtepvppo.?.tł.o8ord trcgogełr tuorrvre1sn orupszrdn z.(Z.L ru1uns',fu nuoJneuo3ezcu.,(pe[odelcizn1se[rcgołrrpour z tupei.r[cu1g,(sep1 łu|łB1)o?ełrolcgi'0vr .tgure1qordqc'(u1ezpn.upn4pedńzrd 7y1..i'{ru.rg3n1snz 9enou3Kzelz oclĄc]ueq4 ńz3.. ezczsndop erueł(d alzpóq qceru uep3p|,śzlą.vpel.todpo lc'oue1Y\e^Ą\{Zouerłrp o>11.{1 etuezbtl'rzol .'(to1s 5ufuu1 .eulelzpn.Ą\p aluezbtnzol eu r|cn1g,(sepI vEp:Z elllru' op órtcB)lg^sBpl qgsods p{€!,!\ arcluz.I op 0 po nłErzpezrdz 99o1nnhtr? feuuerurz|e13t1c9śznśanezoul -blc b,|ecelnz ezst^vzałrorcgl'(llrńuorneu .fe,u,ouolneurcers ercgl'(zlrKzcĄop 1eZo) .nsueseuotrvruqzod qnl ełl'(zs 4e1 -łeJ nllleł\opo{ ulgel '(zrd |ełrouorneuIcels BIueł€Izp ryru'ilr zel o3e1e1q ńqĄ8otu ?,|q .eIueZcEuZe^Ą\IJ'Bł'i!\ q3r elu z .n1nq,fi1eIJ'ouB,ĄAeuzc,{rerunuoryĄ '(qe1uuzu.ĄĄouoJneu .|ecóur ?veleaz eu?oru łrgpepq'{zrdqcp1ul e,tcolodas M nuuls op ?T-u{1tluoz1ou 2ar5 -z)u,tDzo8eup'rn'(cnu31sop iuo711ę |a1zprcq5a| Kuolzpal^Ązot / DuolzpauĄzoJ,(ql,t.rńc o8ep1an1pud'furd^A..0.I ZeJo8.0 ,9,0,u,0,z,O,O,O:Iop 0 po nł€ r zp ue1s.uruesrdńzrd .oruper.t.odpo.urorcgogeł\ -azldz Ic'oue1Y\ ecŁ|ndólsuu u]'t śanzsldśzlą.Kuauf e,ttoqzcll ,.tayouo1 ouuod ,lfcondas n ,rQouoz nuzaruDz -aru {up,n(c uD1SZEII )awĄopAĄ 1 / Duoptu 1 ,tuolzpatuzol DuotzpawĄzo't Jcsoww ecŁindó1seu9ełrour|,Łrda?oru ue}lnq'ft1v .{,u^ / -Kc uo1s1nq'fi1ee[ndłs'{łrulńrgł łr .qc'(uep rytqz pep1śzldeuKulzenzog .qc.{łrorc9o1t uu?our eru qc'(rtorcso1el qcec zełreruod .I op 0 po nłBIZp qcec >1e[ łB1 ?€ 1 Y\ołpŁzrodn -azldz buualu:z łr o3e.uorcgo>1u|runq'file śuelulzsuzcpod 9ezewn '{za1u5 b'trotcgop .euol'eĄo arupuplopa lzp}q eĄruzleuz o8epze4 e]ueZ)vUZe? .[u311uru?^\ pod zvrgąruzceuz ru zuolueru€Z ?e7sozezoru qcńu1ezczsndopqmlc'oue1Y\ł o eM I ł .orcgo1u|euueiluz ep4eĄrc9ou193o114 Kzc e>1lu 1nuz{zczlu {zc eĄIuzceuz 1>p|,i"oła1qo4 -zcvuz elp ou.ĄĄoJzz0 99ou€.ĄA.{qĄup lc1d |eueazaruo q9so '(pro>1e6.I 9'ou3/\\'(q1e.t.r .otll|śzld LuuztzJńut {zc nluzceuz ]s€Ituo]Bu .0 99oue^\ńqppr Laalqnl {zc ntuzcuuz
nieuporządkowanychkategorii, takich jak na przykładstan cywilny omówiony we wcześniejszymptzykładzie.W takim przypadku powinniśmyzastosowaćkodowanie 1.z z, w którym kazdej kategorii jest przypisywany dokładniejeden neuron wyjściowy.Na przyktad,jeżeli chcielibyśmypodzielić zbiór danych na kategorie określająceStan cywilny, sieć powinna mieć sześćneuronów wyjściowych,po jednym dla każdejkategorii rozwiedziona / rozwiedziony, zarnężna/ zonaĘ, w separacji, panna / kawaler, wdowa / wdowiec oraz Stan cywilny nieznany. Klasa reprezentowanaprzez nouron wyjściowy z największązwracanąwartościąjest wtedy wybierana d|arozpaĘwanego rekordu. lednąz zalet stosowania takiego rczwiązatiajest fakt, iz ta metoda pozwala na pomiar wiarygodnościklasyfikacji, wyrazanej jako ńznica między najwigkszą wartością wyjściowąi drugą po niej pod względem wartościzwracanejprzez neuIony wyjściowe. Klasyfikacja o matej wiarygodności(z ma|ąróinicąpomiędzy wartościamiwyjściowymi) może zostaćpoddana dalszym badaniom.
i przewidywania doszacowania 7.2.Sieclneuronowe Wź*: Sieci neuronowe zwracają na wyjściuwartościciąg|e,dlatego znakomicie nadająsię do szacowania i przewidyw ania.Za|ózmy, żej esteśmyzainteresowaniprzewidywaniem ceny pewnej akcji po upływie tzech miesiący. Ptzypuszczalnie zastosowalibyśmynonnaIizację min-max. Sieć zwrócitaby pewną |iczbę zprzedzia|ll od 0 do l,która to (wbrew nadziejom) nie reprezentowałabyprzewidywanej ceny akcji. Normalizacja powinna zostać odwtócona, tak by wynik zwracany ptzez steć móg| tg (denormalizac1d możnaprzedstabyć zrozarnlaływ skali cen. W ogólności za|ezność następująco: wić pr7ewidywana cena : wnik . zakres ł minimum, gdzie wynikjest wartościązwracanąprzezsieć zprzedziahl (0, I), zakres jest zakresem przyjmowanych wartościpoczatkowego aĘbutu przed skalowaniem, minimumjest minimalną wartościąaĘbutu przed skalowaniem. Przypuśćmynaprzyktad, ze zahes cenowy akcji będzie od 20$ do 30$, a wynik sieci neuronowej jest równy 0,69. Wtedy przewidywana cenapo upływie trzech miesiący jest równa przewidywanacena _ wynik , zakresł minimum:0,69. t0$ + 20$ : 26,90$.
siecineuronowei W,#,7.3.Prostyprzyklad Rozważmy prosty przykładsieci neuronowej pokazany na rysunku 7,2' Sieć neuronowa składasięze sztacznych neuronów (węzłów)i jest sieciąwarstwowq,jednokierunkową, petną.W sieci neuronowej jednokierunkowej przepływ dozwolony jest tylko w jednym kierunku, nie wystgpująpętle ani cykle. Sieć neuronowa może składaćsig z dwóch lub więcej wa.rstw,chociaz najczęściejspotykane sieci neuronowe składająsię ztrzech wafstw: warstwy wejściowej,warsw ukrytej oraz warstwy wyjściowej.Sieć możemieć
.(.wnp .dtzlĄ (tuf.torc9[e,u)w,{uzr1óuale,trruep|cue1oduuv.t'Łuu errrńqe1 9goilelĄ.r
,IIx[Im + , . . a t t y { t ąa t o y t o 6- n [ l y t l r n Ż :
,,,,
'{ruuruI e1zón o8eu?p elq. łau o>Ierbuezl,euzo ,yezlbłod rul333ł\ rurruperłrodpo z qc'{łlorcsfełr łr9pu8'{s tłrorurTólceulqruoą ezc\qo .I.l qeqą ^\ qcfuol^ĄB1spezrdqJńu€p (3 .eruns oIłń.ĄAZ) .t.rrerdle111 ,.e,Jbzcbłe|c>IunJ.. l |el'fułnAqsJ€1Y\^\guoJneuółropnq śul|nn1elnezl1 Hq9Jd z cb|e1sśzłon.lełrorc9|'(llr 'le^\orc9 .|'fut llrJSJB1rr ',tuomeu ,{łr]srułr leures lep1ettru1ed elu |e.trorc9|e.tr l |el'tqn ąe| 1|cąun; '(uorna5 .eluezlelr.łezrd qcl zeq [e1ń.rąn'tłusre.tr op a| a|nze1azld o71tł1 .n1nq'{łe fspp Ic9oueł\łu| eppl .qc'tuep ruoIqZ oz auep nrc9|ełreu e|nur.{zr1o ełrorcg|ełr€ł\łsJB1Y\ .Kqzcq ,e1vw qcr eruezs4ól mz 9lzzmzol śza1eu 1śqzlsel r[ce1gfs?p{ 9'oupzplop gezel .[e1'fu4nfmlsmłr ^\9uoJnouśqzcqureruezsleruurzpeu órs clł\ou€lsez .'(uo4s |e13n:pz ou€lĄ .aluezcnazld ld?ls'{łr 1eze1 .ru'bŁ|n1sa1ezrorqz 3u elu?ruI98on lc9ou1opzń1u4n zerc ofiecbzcnruoIqZ op Ioels erueł\osedopo8erqop 1,(qzop l1(zc,eluazcnezrd op vwl*' .aI.Ą\]SJeł\ łr łrguorneu -ord elłr1sJuł\ ^\ 1Y\guoJneu [e1,fu1n eqzc\ eznp 1(qz Z |e1 1'opĄ qcfuełroą1druo1s nruełruuzod tvoq |eznp eruupersodop e?olu oJ .1Y\9cJoZł\ 1clqcez 'Łrd fełrouoJnouIcoISrcgouzc'$su1er fervroruezcqqo ńcour eruezs1órłrze|npołrod|eł(ntn 'iY\.ł\guomeueqz}Ilezs{óqy1 i|eilqn el^\]sJp'/ń .Ąó. eIłĘsJB1Y\ 9eT-uouB.ł\&\guoJneueII .nuorneu .r|cuąg'(sup1 po śze1ez v|uepe,Z o8euup ?go)ilelł\|ef .u1lu.,uo>p'Łn po oą1'! bza1ez o8eupefzru |acór.t z órs 9upep1sezoul €1Y\oIJg|'(trzłr1s.ru11 łĘsJe1ń\cślz tppłeł,Ą\^\ouoJneueqzcllzero qc'(1fuąn'A\]SJB1ń rqza15.qcńuep azlolqz M eqzc|-I łrg1nqń.łznd'$ l '(qzcl1po lza1vz 'fin8er z fełrotc9lełrellrr]sJ€lr\ ^\'/Y\guoJnou .I op po nłepp 0 -azld z rur'(ltroso1IIuBqzcI ts r8ełr nłtbzcod e\1 .(vt6 .du) u8ełreuustd'tzrdlsaf ruruuor -neu fzpórurod nruezct1od nurepzey .ń.łtłsrełr|e|orvrseZ luouoJneu ulśupezz Kaozcb1od ]se[ eru r feudó1seu,{łr}srełrZ ilu€uoJneu ru4ąls,tzs.ttz o41{łńuozcb1od1se|ń.łr1sre.tz mgąped uoJneu śpryĄ,{p8.uupd Bł\o^\lsJeł\,ecb|ezcnlsfuvr 1se|ełrouornou 1se| ?ols -ńzrd rc9ozs1ótłrłr urgtą .?upe|o41Ą eu lcels 99oz$Iórłrz.ercoqc,qcĄ'fu1n 'ĄAlsJeł\ DIII{ fe,rouomeurcersfelsordpup1,(zr4'Z'1,'sf6
l*^
V
e,'no;cgf,{'t.rB,'tó.lsJB^t
f"*
eld.rrp elllsre,n
e,t.ro.lc9fal.rB''|llsJB^t
Tabela 7.1. Danę wejściowe oraz początkowe wartości wag sieci neuronowej
xo: 1'0 xl :0,4 xz:0,2 Ą _0,7
uoA : 0,5 :',1A:0,6 ufA:0,8 u3A :0,6
uoB :0,7 urB :0,9 u2B:0,8 w 3 B: 0 , 4
woz:0,5 UAZ:0,9 wBZ:0,9
gdziex;1jestsygnałemprzekazywanymZl-tego wejściado 7-ego neuronu.u;7jest wagą połączeniapomiędzy i -tym wejściema neuronem o indeksie j, a j-y neuron ma 1 * 1 wejść'SygnaływejścioweXl, X2, . '., XI pochodzą z warstwy poprzedniej,podczas gdy xo jest statym w czasie wymuszeniem zewnętrznym. Analogiczny składnikwystępujący w metodach regresji tradycyjnie przyjmuje wartośćJ0 : 1. Zatem każdy neuron Z warstwy ukrytej i warstwy wyjściowejma dodatkowe wejścierówne co do wartości wadzepołączeniauojxoj : UOj, nP. tl,o'adla neuronuB. Na przyktad dla neuronu A w warstwie ukrytej mamy net4 r,ooa(1) ł wuxtl' ł w21x24ł w3aą1 D,,o,,o: I
: 0,5* 0,6(0,4) : r,3f. + 0,8(0,2) + 0,6(0,7) obliczona w taki sposób kombinacja liniowa netn - 1,32 jest następniewejściemdla funkcji aktywacji. W biologicznych neuronachprzekazanie sygnałudo następnychneuronów następujepo przekroczeniu przez kombinację pewnej wartościprogowej - mówimy wtedy, że nastąpił,,zapton,,neuronu. Zachowanie neuronu jest nieliniowe' ponieważ sygnat wyjściowy nie jest zav{szeliniową za|eznościąprzyrostu pobudzeń na wejściu.W sztucznej sieci neuronowej zjawisko to jest modelowane Zapomocąnieliniowych funkcji aktywacji. Najczęściejspotykanąfunkcją aktywacji jest funkcja sigmoidalna Y:
1
l+e-' gdzie e jest podstawą logarytmu naturalnego (Iiczbą Napera), w przyb|izeniu równą f,7I8f81,8f8, Zatem dla neuronu A funkcja aktywacji przyjmuje jako wejściafl€t 4 : I,3f i ob|iczawartośćwyjściow4neuronu2jako ya : ,*+.]' : O,.789f. W ten sposób neuron A obltcza swój sygnałwyjściowy (w danej chwili) i otrzymanąwartośćprzekazuje dalej do neuronu Z, gdzie (poprzez inną kombinację liniową) stanie się ona składn7Łjemnet7. Jednak aby móc ob|iczyć netZ, musimy znać sygnał,neuronu B' Korzystając z danychzawartych w tabeli 7.I, otrzymujemy net3 _ D,,,,,,: uloa(1)ł u13x1g* w2gxry* wzsxsB i
: 1,5, : 0, 7ł0 , 9 ( 0 , 4+) 0 , 8 ( 0 , 2+)0,4(0,7) 2Nazywaną również potencjałęm zęwnętIziym (wyjściowym) Qlrzyp. ttum.),
-{fl
: G)! : f teupprour8rs 1|cąun;se.n1d16.€.l.sdu x
0 0'0
}Uę
0'I
nogcqo{ o{słg.o3e.{olu{o.ł\fzrą rue1ąereqc BJeIqBu (")/
.du) '(urzperzpBłpoJ9 ołsłq uluul€ppo óreFu ł\. .B^\oruqeluerd 1se!(I > x > I_ elp "'j#,TJ"#'ioTiil}"ff:1: etc4ung .(qcś1slnśzcazlqzcll lg|qz 1se|r|cąun; bulzpevp eruzc,$eroe1)9 > r > 9_ : G)! : .{ |aulzplour8rs1|c>1ury elp łse"ol,tłr erłrąspez"rdg.1>1euns,(6.etc9[e,tt .ńzvroruq IJ'ou€.ł\ po l3souzelez n K;nłser^rerdzuro '{łroruqołrńzrr1 er'tłurdrap1ereqc?qos eZeIJo śzcb1zenaluo4irfceanń1ąe1|c>1un1o>1e||eupp1our8rs r|c1unJ 9śznoyeno?ezce1q
.'.l pulpplouCIls Blcłun| ;lcemńqe ...,.ff .r|ce.tł.resqo fezszvrrerd elp nlec feuuartuz buułr'(plłlezrd 99ouełr .0 efn]uezerderr n8arqezrdru'Łsłrrerd od rcerse\IełEvp urenlru,{rYr ]se|0st8 99ou€^\ BI .0s/8.0 _ tqto.t:e-|I : Głau){ I ory| Z nuoJnau 1|cełr'$>1u 1|cąun;99ouełr1sefeuezcqqo erudó1su5
'r gt6' r: (g tl g' 0 ) 6 '+o ( 7 , 6 8 1 ' 0) 6' 0 : + t;O zlyzatr41zvrzvX1+ C)zllyl,- zlyzlXy7
- zeu
feqeproru -8ls l|c4un; Łcourod ez rul,śueul(z4o,|alupezrdod ,{łusm^\Z ^louoJneurul,tłrorc9[,{łr ruru1eu8,(szce1 .Ęnq't.ĘeIIuBTc9ouB'!\ Łs elu Z nuomeu ir urcs|ełl az ,śulzenrne7 ?n| .IIuBuoJneurunuperłrodpońzpólruod yezcŻ1od 8e.t óruns buozen o4e| Zpu 99ouBł\ cb|ezcl1qo,g I V ^\ouoJneuz acb,zpoqcode.uorcgf'łtrIosoue.Ąla1 ńzcby Z uoJneN
'9 LI 8' o- s ' r- ? +I : ( pu) ! I
erudó]szue
Takie same przyrosty wartościx powodują rózne przyrosty wartościfunkcji /(x)' w Zaleznościod miejsca rozpatrywania przyrostów x. Blisko środkadziedziny zmiana wartościfunkcji jest proporcjonalna do zmiany wartościx, natomiast blisko końca dziedzlny dla niewielkiego przyrostu wartościx zmiana wartościfunkcji jest nieporównywalnie mała.Funkcja sigmoidalna jest nazywana czasem funkcją spłaszczającą (ang' squashingfunction), ponieważdla dowolnej wartościrzeczywistej zwraca wartość zprzedziału od 0 do l.
Jak się uczą sieci neuronowe? Sieci neuronowe wykorzystują metodę uczenia nadzorowanego. IJczenieto wymaga dużegozbioru lczącego kompletnych danych, w tym oczekiwanej wartościzmiennej celu. Kazda obserwacja,czyli rekord ze zbioru uczącego,jest przetwarzanaprzez sieć, a wynik jest zwracany przez neuron wyjściowy (zakładamy, ze marrly tylko jeden neuron wyjściowy,tzn. neuron w warstwie wyjściowej,tak jak na rysunku 7.f). ottzymana wartość(wyjście)jestnastgpnieporównywana z wartością oczekiwaną (właściwą)(oczekiwana) dla tego rekordu ze zbioru vczącego - oblicza. ny jest błąd(oczekiwana _ wyjście),Ten błądjest analogiczny do reszty w modelach regresji. W większościmodeli sieci neuronowych miarą stopnia dopasowania wartości otrzyńanych do wartościoczekiwanych jest suma kwadratów błędów (tzw.bł'ądłączny) (ang. Sum of Squared Errors, SSE)
SSE: t
\/-t
(oczekiwana _ wyjście).,
neuronwyjśc
gdzie kwadraty błgdów SąSumowaneze wszystkich neuronów wyjściowychi z wszystkich rekordów. Zatem problemem jest znalezienie zbioru wag, które będą minimalizować SSE. W takim ujęciu wagi są analogiczne do parametrów w modelu regresji. ,,Prawdziwe' wartościwag, które minimalizują SSE, są nieznane, a naszym zadaniem jest ich oszacowanie d\a rozpaĘwanych danych. Jednak z powodu nieliniowej natury funkcji sigmoidalnej ukrytej w sieci nie istnieje rozwiązanie ana|ityczne (ang, closed. fo,m) minimalizujące SSE, które istnieje w ptzypadku metody najmniejszych kwadratów.
spadku naiwiększego 7.6.Regu|a W.;.;i
Musimy Zatemskorzystaćz metod optymalizacjt, z:wtaszczazregułynajwiększego spadku, które pomogą nam zna|eźćzbiór wag minimalizujący SSE. ZaŁ6zmy,ze mamy zbiór (wektor)wagu:Uo,U)I,|.Df,..',Umnaszejsiecineuronowejichcemyzna|eźĆwa tośćkazdej z tych wag oraz zminimalizować SSE. Możemy uzyć regułynajwiększego spadku, któr a wskazuje ki erunek doStoSowywani a wag taki, aby zmniejszyó wartośćS SE'
.au'eqon.l op npółq
snuTluPu.ł\oJ1se[t8ełr ilcśzod BIII-ITIII e7 .ez> I[cłunJ eluel{qcBu Kzel u1u1se>Ilel.treru ./.usqoozp\, -euzo oJ.(-Eśśtr-) |_ : eucaqo.7'y :9e1sodtcŁfndólseuentqśzld euceqonąV BIueZcn{oDI
.I ualez.(orrro1g3ezczs blzprcq h e1luu(zctrgdsłló1or '{urrłrgruo op !e7po4) 0 po nłBIZp .azld z lc'oil€^\ e[nu['Ł.rd €J9lł .Bluozon ueplluudzc1gds,t qn1 ua1r1pu,{zc 1[cr1e"ror1 -;gds'n buvmzeu 'h 1e1e1s trulepop zeztd euozouur lsef eupoqcod eruzcelglso 'eruel,tqc .ea e1b>1usua8uą o8ezs|errrurnpo.t.rod z ezs|eluul alzpóq ercórunsezrd .etuolzod erłrerd .erc4und ru'(l .tr bapÓ1?zmzaq ]se| ezrr'{zrĄfparJ ?9ou€^\ b,znp eanuupoqcod zełreruod .ezs1órurr elzplq arcórunsezrd tznp 1se[(z1b1o3e1 sue8ue1zerc) vrua1lqceu 1bą'(pery .auceqo(Il g55 urepó18zrvr |eupoqcod |eupó18z.,lrzeq Tc'ołIarłr'{umzrr'tzne? .,(tu |eno>Fstzc eureqopp \ euJeqoo? -79łBZ. (/ ó8eryrctunsezrd '(u9ruutzvrod ozpreq >1u1 ,śśa') ryu,* n{urueDl ł\ >IBUZ_IIrZc .euJ3qo.n ruepó18złrg55 leupoqcod ru1euzop (#) du.trcezrd lsol oucaqoo2 eruułrosedopĄBuzUlelez.bru1epopJsoue^iY\ uupoqcod zlu !J9ou3^\ .dlrn qcpIsłq Irn tcsouerrre1pe .?uure|n Irn lcsoue.Ą{ elu BupoqJod,ltm qcHsIIq ?'oueł\ elo .trn erc1und ł\ ass |ezu'{zrą(urua1,(qceu u1b1uesue8uet) ru'(llrołuruerr1 uer4ruu,{zc -19dsłrrsai Bupoqcod .jrn |euprud1dolcgogełl e1,{q,(qe ąo .r8ułr99opełr !e71q # euca9o12 oJ .dlm Tc9oiluńADIsIIq lfułl 9gopezrrr1ezel.,(uor1s 2tzsfaluruz ,ttugfqr1a1om 1sef |e18nrp7' jm teapln'$do rcgopełr |e471qe1śq,(qe.r8u.t.r 99oilełr2tzs>15lnz,(urs,(qqercqc ll;la$Z .rtrn o>IslIQóls e|np|euz ouJeqont e8ern uuceqo ezsau e7' ,zen1 '(tu99nd,(zr4 'm OluazJn uaDlonl - a'&ou,71 eIZpS 'suceqomv+ euraqool :o>1u I lrn lsol euceQomv |eqeru'ftdo IJ'ouP^\ oP Im buceqo bzsuu 9śzqqśzldezolllod ergpl .ó1n3er l8ełr 9'ouBA\ .jrn oąu|evozceuzo trn ńu.t uu1utuń1do99ogu16.ezsleruur|eu pńqpo ńrug.{q11ercq3 ]sef ,Im l?v,tyt lcgoilB/Y\ '(ueąnz$ .I2 ńełr tc9o1reł\po lcgouzel 1sa|ass lergq up |ep1e1 .7.1 -3z .Ą\ npóp ul^\B]spezrd ńr-ou1 ESs 99ope.i!\ 4euns,tr '(urlną1eueezlĄ,Ią b?enbzc -u'tpefod z1apedńzld śluzenzol.ełro1uerperfl dpo1eur b|erypp >1e|.9zrrror1snpz '(qy .ńerrr |apzu>1 g55 qc'(upoqcod qc'irropsb,zc IueJoDIe.ł\ ruepó18z't.r |erupep1ope f 'mp .Loń
Imp
o m p1
''*]
: (,!|)asSA
"'* lse| rn 8ełr erop1ełrruepó18z.,vr qc'{upoqcodIueJo1łe'/K aSS 1ueIpBJc r8em erue,tlosedop n4uruerr1EILIelzeIeuzop InąurepóI8z,rr g55 epe1fqcuu erue1sfzro1'{16 .7.4 .s,{g 144
dl1|.
-I|1y.
I 44
wstecznej 7.7.Regufypropagacji ffi.:,,,",,,:,t Algorytm propagacji wstecznejna podstawie błędu(oczekiwana _ wyjście) dla danego rekordu oblicza sygnaty btędu od warstwy wyjściowejdo wejścioweji przypisuje je poszczególnym potączeniom. Wagi tych po|ączeńsą następnie,w celu zmniejszenia błędu,dopasowyw ane przy uzyciu reguty największego spadku. Mitchell [1] za pomocą funkcji sigmoidalnej i regułynajwiększego spadku wyprow adza następującą regułępropagacji wstecznej: ,ID ii,nowe :
U ij,obecne ł
Lw
i j,
gdzie
Owii
rl3jxii.
Wiemy jlż, ze 4 jest współczynnikiem korekcji, a xii oznycza i -te wejściedo 7-ego neuronu. Ale co oznaczaó;? Czynnik 3i oznacza sygnałbłędu,czy|iudziaŁ w wielkości błędu neuronu 7. Sygnał ten jest obliczany za pomocą pochodnej cząStkowej funkcji sigmoidalnej ze wzg|ędl na net 1 i przybiera następującąpostać zaleznie od tego, czy rozpatrywany węzeŁna\eŻydo warstwy wyjściowej, czy do warstwy ukrytej:
"Ó"Ji :
- wyjście _ wyjście 1) )(oczekiwanai ]wyjście,(I wyjściowej, w warstwie dla neuronów l 1 _ wyjście Do','" Ultó,, n"u.ony 1) 10 |wyjście dla neuronów w warstwieukrytej. l
r/;tó; odwołuje sig do wazonych sum sygnatów btędów neuronów gdzie |o',"e neurony z następnychwarsiw. (Pełnewyprowadzenieznajdujesię w książceMitchella [1]). Zauwazmy również, ze regułapropagacji wstecznej wyjaśnia,d|aczego aĘbuty zmiennych muSZą zostać znorma|izowanedo przedziałuod 0 do 1. Przykładowo,jeżeli dane wejściowemogłyby osiągaćwartościsześciocyfrowe,a nie byłyby normalizowane, krokuczeniaL'w;1:Ęljxij bytbyzdominowanyptzezwartościdanychx;7'Stądpropagacja błędów (w formie 6) przez sieó byłaby znlszczona, a uczenie (dopasowaniewag) stałobvsie niemożliwe.
propagacii wstecznei W 7.8.Przyklad Przypomnijmy sobie, że w naszym prostym przykładzie we wprowadzeniu wynik dziaoczetania sieci po pierwszym przebiegubył wyj ście: 0' 8750. Za|ózmy, ze wartość : 0, 01. :0, korekcji 8 i użyjemywspótczynnika 4 kiwana zmiennej ce|l oczekiwana _0, 075' Możemy zastosowaćpoprzednią Wtedy bt'ądłącznyjestrówny o, 8_0, 8750 : regułę,aby przedstawić, jak działaalgorytm propagacji wstecznej, i dostosować wagi, ob|iczając sygnały btędów róznych neuronów' Mimo ze poprawianie wag jest możliwe tylko po wczytaniu wszystkich rekordów, sieci neuronowe używająstochastycznego (lub też online) algorytmu propagacji wstecznej, który modyfikuje wagi po wczytaniu każdegorekordu. Najpierw znajdowany jest sygnałbtędu óz neuronu Z.Poniewaz neuron Z jestnev ronem wyjściowym,otrzymujemy
'VgL666L'O: - e/\ov'vzm - 8'0 - vzmy + ebeqo'vzm }VZOOOO'0 '9V20000'0- : (Z'0)(82I00,0-)I,O: zx . vglt - vzmy ńrue|nułkrl o v zm |3EM eIQi .809666s.0: _ eAou.yI0? _ 9.0 - vImY + auJeqo.YInł Z6VOO0O,0 '26t0000,0- : (t,0)(tT,I00,0-)I,0: Ir . vglt - vtmy ,{uefmu -Kzryovlrn l8?.treIC .y nuoJneu op qcńc?Zpo|ąJlrl.venbłod8ułr lc9oueł\ 'truzc11qg .'€ 6 68.0 : euxeqo, Z gm - ell'ou' Z gm 19000.0 _ 6.0 : 7 a mY + 'L9000'0- : (9tIg'0)(2900'0-)I,O: salc;tKu. łglt: Tsmy |euzce]s,rrr|ce8edo'ldĄn8er tcourod Bz Zgm ó8e,trr9ru1un1ąun ńure?oruzere1
' I 1 0 0 ' 0 - = ( 2 9 0 0 ' 0 - ) ( o ' o ) ( q r t g- ' 0 I ) g t l g ' 0: a g uIBuelep oc ,7 uomeulsei leudótseuńłr1srułr Z lueuoJneuru'tu'(pe|nłrou7 ,{uo:nauezspp
,!g,t{ą
(a atc;t(tvt,- 1)s an;t(u
- ag
npółq ruełBu8,{s z |eilqn oIAJSJB,ĄĄ ł\ nuoJneu op ńulzpoqcezld erudó1su51 B, .€9'668.0 ełe$oz [e.torc9['(llr 9'oueł\ ?,łroueu 6.9 le,tło4lŁzcodrcgogełrZ aluIIluaII]JZ .{łr]srełrz Z urcuolneu e [e1'{.r1n'tłr1srezrrz y ueuoJneu 'fupórurod eluezcb1od e3e11 .99€ 6 68.0 : - el}t'ou,Zvm l'9000.0 _ 6.0 : 7ymY +auaeqo,Zvm ,L7ąOOO,O: (Z6SL,O)(2900,0-)I,O:valc;tKu. vgtt: Tymy |euzce1słrrfce8udord'Ęn8er Łcotuod ez ZVm ó8u.ł.r9rupnp1enzr-le7'{ruszo141
.€ z I00.0_: (z800.0_)G,O(zagt,0 _ DZ68L.0 : Vg
cólłr 1e1.z800.0_ ńułrgr1se|7 nuorneunpó1q1euB'{se.6,O - ZVm tsou.{.tł. rueruezcttrodlllĄzasezbr.tz e3e11 .el^usJ€^\ leudó1seun śza17 uomeu oą1'(1 duomeu azs
'tg,ttą
j
(v atc;tttw- 1)vatc;ttu - v g
op Kza1eu lalf,rłn .&tł.1sre.t. y uomeu ze^\aluod'y nuomeu op'ferupezrdod 'funlsre.,r,r op ggtaztd'(urezourerudgsey '8I66V'O: 28000'0- g'0 : ZomV +euceqo'z\m "h\ou'zom '28000'0- : (I)(2800'0-)I'O : ()zglt - zlmy |euzce1s.tr|ce8edord'Ęn8er tcotuod ez (1 lcgo1 -JB'ĄĄ o 1eu8'tsercg|ełreu e|nzeąezrdergq) Z\m Ó?elr' ,,b1e1s,, 9ełrosudopzun1 Kanezo11
'2800'0-: (glg'0- g'0)(stg'o - I)slg'0:
(z atc; [Ku - z Duoturplaz co)(z atc; [(n - 1)z an ; [Kn - z g
Dla wagi u3A otrzymujemy : _0,0000861, Lw31: Ę3l,. xz: 0,1(-0,00123)(0'7)
.U)3A,nou,e : ,I1)3A'obecne ł Lw37:
0,6 _ 0,000086I : 0,5999139.
Wreszcie, dla wagi woA otrzymujemy L w o l - Ę 6 , ą . x o : 0 , 1 ( _ 0 , 0 0 1 2 3 ) ( 1: ) _ 0 , 0 0 0 1 2 3 , -| Ar-uoe: 0,5 - 0,000123:0,499877. : ?lj0A,obecne Łł]oA,nowe obliczenie wartościWls wg3, lDIB,,II2B,tl;3Bpozostawiamyjako ćwiczenię. Zaawazmy, ze wartościwag Zostaty dopasowanetylko na podstawie jednokrotnego wczytania jednegorekordu. Sieć obliczyła przewidywaną wartośćzmiennej celu, porównałazwartościąoczekiwaną, a nastgpnieobliczyła sygnałybłgdów w sieci, dopasowując wagi tak, aby zapewnić mniejszy bŁąd,tączny.Pokazanie,że poprawienie wag skutkuje mniejszym btędem |ącznym,pozostawiamy jako ćwiczenie.
ffi,,'7.9.Warunek,,stopu" Sieć neuronowa będzie kontynuować aczenie się na zbiorze uczącym, rekord po rekor. dzie, ciry|e dopasowując wagi, tak aby zmniejszyć błąd prognozy. Algorytm lczenia moze potrzebowaćwielu przebiegów ptzez zbiór danych, zaIim algorytm osiągnie warunek ,,stopu,,. Zatem co powinno być tym warunkiem ,,stopu''?Jeze|i czas uczenia jest wynikiem, mozna po prostu przyjąć za warunek ',Stopu'' |iczbę powtófzeń uczenia lub tezrzeczywistą ilośćczasu poświęconąna uczenie. Jednak klótki czaslczeniajest najprawdopodobniej osiągnięty kosztem mniej szej dokładnościmodelu. Alternatywnie można użyć warunku ,,Stopu'',który ocenia, kiedy SSE na zbiorze |lczącym został ogranlczony do pewnej matej wartościprogowej. Niestety z powodu swojej elastycznościsieci neuronowe są podatne naptze\czenie, zapamiętl1ącposzczególne wzorce ze zbioru uczącego zamiast zachowania zdolnościuogólniania w przypadku nieznanych danych. Dlatego tez większośćimplementacji sieci neuronowych adaptuje nastgpującąprocedurg sprawdzianu Wzy Żowego (ang. c ross.vali dation). 1. Wydziel częśćpoczątkowegozbioru danych jako zbiór tesĘący. f . Przeprowadźlczenie sieci neuronowej,zgodnie zpowyżĄ opisaną metodą,na zbiorze vczącym (pozostałaczgśćdanych). 3. Zastosuj nowo znalezione wagi na podstawie zbioru uczącegodo zbioru tesĘącego. 4. obserwuj dwa ,,zestawywa$'', jeden ,,nowy,,zbtór wag otrzymany przez uczenie na zbiorzeuczącym' drugi, ,,najlepszy,,,z minimalną wartościąSSE dla zbioru tesĘącego. 5. Zakończ algorytm, gdy btąd SSE sieci zwagami Z ,onowego''zbioru wag dla zbioru testującegobędzie znacząco większy niz d|a,,najlepszego'' zbioru wag. Niezależnie od użytegokryterium ,,stopu''sieci neuronowe nie gwaranĘą zna|ezieniarozwiązania optymalnęgo, Znanegojako globalne minimum SSE. Częściejalgorytm
.ouceqooz 4I.U*m po |elep Óls 9ve1euzezoru elcłeJe.Ą\I *rnŁupurń1do .ńznp ,ezlozw u'tzszńłrod ^\ rueDlluzouru ilqz lse| ?9ouułr ^(zcoąsezrd99o]rełru,tou .& .*rnD[urueDIryreuezrrosedop elzpóq auceqon-l 1sei'{r9q 1!c>1aro>1 ąluu'Łc1gds.tr1eze|e1y 'l/
rureqoo2p\ "
ll'-:
\ asse /
|euep ,,tłelglĄ,m
ruraqoozv
.n4peds o8ezs1ónrleu b1n8er z alupoB7.euJeqoo2 99oue^l uru III^\qc r8ułr bu1eur't1do Łlcsopełr lsel *m avp?.9.1 >1euns'ftfurzełrzo5
eqeqop lunrulurru fzco>1sezrdułfto8le ez .9errroporrrod b8our & Ic9oue,Ąe eznq .9.4 .sfg eaou&
M
JuJ.qo/4
.eupur'(1doeluezblmzołzazld1enr1e>1sezrd elzpóq u4fuo8p e? .ce.ł\opo.'vrod avpÓq ll .o8eqeru'Qdo eruzblnzoJ ołs{q lsel ulfuo81e 99o]re.uBqnp el./t 99ope.ttŁznp '(ureruu ez .'(ur99nd'(zld.e|UzJaIUo{eIN;łlcgogerrrqc'Ęnp eluu^\oso1s lsefureruezblwzolulelez śz3.9gouzalqz 9bu?blso ńqu .nsuzc oznp eruI€^\o1dec>1ueru 9errroqezr1odatzpóq aluqop -odopzrrurdcers .nur1,{.ro31e llculcrur sezcpod e1uur1se[h qaze| ana1ez,ew:ulozpruq bpóq zeIUMgl 8ervrrc9o1rełreruełrosedop.'!uru ozprcq 1se|r|c>1ero1 ąluuńzctrgds,Ą\ łezaf i8ułr eruułrosedop9'tq 'tuur.tod e?np łBf ill ątuu(zctrgdsn9btKzld uetur,tł,od .gss .tu o8aupqo18luruulunu n>lurueD{ .tr Icels r8ern ?'ouu,ĄĄĘer 9bunsezrdcgruod '{qe -erqńłrt1e1s1se|.1 > l't > g ,h (eluazcn) ;!c>1eroą >1ruufzc1gdsłt ez .erqos'{ur|ruurod,{zr4
.0 (eIuezcn) !lcłolołł!uuńzcłgdsłtl.t ..:..::. .lazruod p11nr1s euor.ł\9luo o8er9q .n1ueulolu ts .erułr.(1euJe]Iv. łIupBPIS'(uepop ?e7soz azoul |euzce]s,trl|ce8edord nu4d:o8p op .([z] słrult t peeg .qoz) n1uerueleeruezpełlordnzezldod.uńup1o1 ruruuluilu M **u urrrezcntr>IoĄop o8e.tnoso1 -łJn..elu ''(qe.e|nupd urus |euzcełsłrl|ce8edord u4dro8p ,{uzc'$seqco1s.|ezcuu1 o .'tłrocyo1 .qc'funoąlŁzcodlc9o1 oąe! '(wra1q,fur 1se|qce1lu'{mqcńzsde1|euo Iepontr .tłtouolneu -nnqciuzglpo cb,|euśzcodzor '(ruńzcn eruloDIDIIp[petrą,furd e1q o 9ers 'nure1qordLĄ\ouulselu oJ eluelupz?ez ecś11erd .eruezbtłrzor 11 eupurń1do eru 1eze| .erqop eln1uezerderer9q .urńu1nlol runrululul 'tł...cturyn.. azoul
,et
W rzeczywistości,ponieważnowa waga będzie po drugiej stronie u*, następnedo. pasowanie Znowu przeskoczy u,l*,prowadząc do niefortunnej oscylacji pomiędzy dwoma i nigdy nie osiądzie w ,,dolinie'' (minimum). Jednym z rozwiązańjest sto,,ZboQzam1,, sowanie zmiennych wartościwspółczynnika 4. Na początku uczenia 4 powinno przyjmować stosunkowo duże wartości,aby umożliwió szybkie zb|izenie się do otoczenia minimum globalnego. Ale gdy sieć będzie zaczynata zbiegać, wspótczynnik korekcji powinien być stopniowo zmniejszany, by uniknąć przeskoczenia minimum.
7.11. Skladnik momentu W:t:,:,,.::::,,:, Algorytm propagacji wstecznejjest jeszcze bardziej skuteczny ptzez dodanie składnika momentu3 cv(ang.rnomentumterm)wpostaci At ob".n": *T;lP
d?/obrcne
f {yAu)poprzednie,
jestpoprzednimkrokiemuczenia,a0 ś cv < I.Zatemnowyskładnik gdzie Au;nop.""6,,i" reprezenĘe częśćpoprzedniego kroku uczenia dla danej wagi. cYAtlpoprzedni" Zasadniczo składnik momentu reprezentujebezwładność,Duzewartościcvwptyną na krok uczenia Au]ob""n"tak, ąby przesunąćwagę w tym samym kierunku co uprzednio. Wprowadzenie składnikamomentu do algorytmu propagacji wstecznej sprawia, żekrok uczenia j est średniąwykładniczą (ang' exponential average) wszystkich poprzednich kroków uczenia (co zostałopokazane np. u Reeda i Marksa [2]):
^ : -n Ś ł AUobecne L"
aSsE a'"'""""-o'
Składnik oł wskazuje, ze ostatnie kroki uczenia wywierają większy wpływ. Duże wartościcv pozula|ająna ,,zapamiętanie''większej liczby składników w ,,historii'' kroków jak równieŻ wpływ poprzednich lczenia. Mate wartościa redukują efekt bezwładności, :0, gdy sktadnik momentu całkowicie zanika' dopasowań, ażdo wartościa oczywiście składnik momentu pomaga wyttumić wcześniejwspomnianą oscylację wokół punktu optymalnego poprzez hamowanie ruchu punktu przy zmianie kierunku. Ale składnikmomentu pomaga równiez we wczesnychfazach algorytmu poprzez zwiększenie przyrostów, zgodnie z którymi waga zb|iŻa się do punktu optymalnego. Jest to spowodowanetym, żekolejne kroki uczenia najprawdopodobniejwskazują jeden kierunek, zatem średniawykładnicza równiez wskaże ten sam kierunek. Składnik momentu jest również pomocny' gdy nachylenie S^SEwzględem u jest małe,Jeze|ijednak składnik o jest zbyt dllzy, krok uczenia mozę ptzeskoczyć minimum z powodu kumulacji poprzednich przesunięć. Aby w uproszczony sposób wytłumaczyć dziaŁanieskładnika momentu, ptzeana|izujmy rysunki 7 .6 i 7 .7. W obu przypadkach waga początkowa ma wartośćI, minima 3Technika ta jest nazywana czasemmetodą momentu @rzyp. ttum'),
.ppu/fuA ez sdel |Bu e1óru8blso bln1soz ullllvz, tltg Ą -eureredqc'(1rururcgo1renpufu7glz euzceruoł b3o14 .r' Ęueruolu u>I Ąuel;lś'rcds1e 9fq -IupBtłS1 ł 1|c>1ero1n1ruu'fuc19ds&\ Icgouelt\9BJeIqoperup?plop śze1eu ze1o3e1e16 errlEqold umtulufiIl śzco4sand undroE1u ez .9e^\opo.Ą\odt8our p nlueruou DIIupBrłs Ic9ouu1ń eznq .4.1, .sdg Mcg
vl
'2 erc>pnd.n ru'tup>yo1 ruruurunu^\ Óls vluiz4uz r g elc1und łr eupqol8 luilulurru ,&co1sezrd ez .}edurrH3] ^pe]^\BłBruJ elzp$q e1e .ąer98ed ńzsłrrerd €uo e?otu ttc9o.trp1 z,|en,|zl419p łr ó>11n4 Ł7 9euo>1od -nP ól .'(tu,'Łco1s1eze1 .fełr'tzrĄvu..ĘIflł.. lr-TIliIZII .{znp e|nz1oqurńs oc .m n1ueluolu BłIupBHS9'ouu^\bznp ,(ruuu ez,Ńnz91e7.l.1>1euns,{-tńu|nzqeueazrd .erudfise51 tunuilufluop,ftco4soperuru1fuo8le .n"^ooo|,,lJ}Tł:f n]ueluolun,IIupEpIs lc9ou?1(e1uyq.9.4.s,dg " ""
'g erclund rn o8eqeqolS urnurruru eruerzeleuzeuelewz -od eru e1u.eq€łol luruulunu fec?fn1uezerder.y erc4und łl 11ceru lozsłrrerd arue:zelauz el.t\qzorun oln1uł €ł€ru ,tz)BlJz oJ .eluqop |ezsłrrerd^AeIIDI]nl a1r93ed o8ezs ?'ouP1rr .[ełr,(ZlĄeu -łrrsrd 'fuco>1sazrderu 'tp8ru . |ełr'krq ł9p ^\ół1nł bpw $ fru'tzco1s 1eze1 oc .ń1eur1se[n1ueluolułpp"tłs az ,śulz91e7.9'LĄea ..ĘIflł.. Iev;tlzol'Ęeru a|nz11oqur,ts -ns'tr ,'(ru|nzTIEIIEezJd.gołB| eqeqo18 {uruulurtuB ,) I y o)p| euozceuzo bs eup1o1
Ana|iza czulości W. 7.12. Ta sama wspaniałaelastyczJednąz wad sieci neuronowychjest ich nieplrzezroczystość. ność,która umożliwia sieciom neuronowym modelowanie szerokiego zakresu nieliniowych zachowań, ograniczanasze możliwościinterpretowaniawyników za pomocą łatwo formuowalnych reguł.W przeciwieństwie do drzew decyzyjnych, nie istnieją bezpośrednie procedury przetwarzĄące wagi sieci neuronowych w zwarty zbiór reguł,decyzyjnych. Jednak istnieje pewna procedura, flazwana ana|izączułości(ang, sensitivity analysis), która pozwa|a na względny pomiar wptywu każdegoz atrybutów na wynik dzia|ania sieci. Ana|iza czułościZa pomocą wyżej wspomnianego zbioru testowego przebiega w następującysposób: 1. Stwórz nową obserwację x5,.6ni.,z wartościąkażdego aĘbutu równą średniejze wszystkich rekordów zbioru testowego. 2, ob|icz wyjściesieci dla Jśrednie' Nazwij je wyjście6,.6,1". tak, aby odzwierciedlić wartośćminimalną 3. Atrybut po atrybucie, zmieniĄ Jśrednie i maksymalną aĘbutu. Znajdźwynik działaniasieci dla kazdej zmiany i porównaj je z wyjście3,"6,1". Ana|izaczułościpokaże,żezmianapewnych wartościaĘbutów z ich wartościminimalnej na maksymalnąbędzie miaławiększy wpływ na wynik dziatania sieci niż w przypadku innych atrybutów. Zatózmy na ptzyKad' ze jesteśmyzainteresowani przewidywaniem ceny akcji na podstawie stosunku cena_zarobki, wielkośćdywidendy i innych aĘbutów. Załózmy równiez, ze zmiana atrybutu stosunek cena-zarobkj z wartościminimalnej na maksymalną powoduje wzrost wyniku o 0, f0, podczas gdy zmiana aĘbutu wielkośćdywidendy z wartościminimalnej na maksymalną powoduje wzrost wyniku o 0,30, gdy inne aĘbuty są stałei równe średniejwartości.Możemy wysnuć wniosek, ze sieć neuronowajest bardziej ,,wtażIiwa,,na zmiang wartościaĘbutu wielkośćdywidendy i że dlatego wielkośćdywidendy jest ważniejszym czynnikiem w przewidywaniu ceny akcji niz stosunekcena-zarobki.
modelowan ia siecineuronowei 7.13.Zastosowanie ffi':,;i,:' Nastgpnie zastosujemy model sieci neuronowej za pomocą oprogramowania Insightful Miner do tego Samego zbioru danych adult I3l z ,,the UCal Irvine Machinę Learning Repository'', który analizowaliśmyw rozdziale 6. oprogramowanie sieci neuronowejIn. sighful Miner zostato użytedo zbioru Uczącegoskładającegosię z 25 000 przypadków. Sieć miałajedną warstwęukrytą z ośmiomaneuronami.Algorytm powtaruat47 razy proces uczenia nazbiorue danych. Wynikowa siećjest przedstawiona na rysunku 7.8. Kwadraciki po lewej stronie reprezenĘą neurony wejściowe.Dla zmiennych jakościowych jest tylko jeden węzełwejściowyna klasę. osiem ciemnoszarych kółeczek reprezentuje neufony z warstwy ukrytej. Jasnoszare kółeczka reprezentująwymuszenie zewnęttzne, Jest tylko jeden neuron wyjściowy,który wskazuje, czy rekord zosta!'ZayJasyfikowany jako mający dochód mniejszy lub równy 50 000$.
.OI'I n)I -uns,& Bu ouolł\ulspezJdDIIu^/V\ 2,.auu,uaunalJBIuB^\oIIIBr8ordo bcourod ez tcso1nzc3z -IIBuBouozpełrordezrd ze1 o3e1e1q .npoqcop (r|cag'(sep1) uruułr'(prłrezldop luePlm -7DIS1Y\ ulśzsteluzen|eutse| qc'tuueluJz ez elg1n,9alzperłr'(ug'(qllelJqc 'tur ryupe1 ,obgLołoĄo 9'oup?plop ńqeyunadez 'tqoso |epqeąBlp..$0o0 0s eu^\gJqnl ?1u |eluul.. e|cog'(su11 elsord.$000 0s zru azsąórłr eru fpoqcop ?Iu ł\9pJołer qcr11s'tzs/^ob;L puuod zeł\eTuod.[7] o8eneqoy n qcduepod .rcgoupu1qopqcBcIIIeJBl4cśu1ezczsndop łr órs rcgeruroc ,ob78Buł\gJ1se[n1eporuo3e1eruu.trńpr.tezrd €ueł\oc€Zso 9goupzPlop .uńrrrorcg|'(ltr lueuoJneu e [el'(Ąn 'irrls . -Ju^\fiu€uoJneu ńzpóruod l8errr elal1'liezru1uns'{r lsel fet'fu>In 99ózc eu1oq 9L, O_ Bu,/Y\9J ,{łr]srełrlueuoJnou (tu'(u1op)rulu]elso u (dłrorcs[e^\uomeu '!sgzs) (o4soult>1sg7o>1s -yDlpul : osoy) oulDlsglu0Lpul uD)uaruV : a)Da Iueuomeu '{zpórurod ewazcb1od eae1'1. '(p3 suzcpod , €u^ĄgJ leilnln 'ilr1srełr lueuoJneu ru'(ur98 e (>1atu)ałn anea lsa| L6,O_ -oJneu '{zpórurod uluezcb1od pup1'(zrd u8ułr e51 .ptl uoJnau t7nlp : ę7 ,uonau (Ku -l93) bsułald : zz:|e1'{.rr1n,{nosre.lł, ńuorneu b|Ęuezerdor śpÓzłKpB sezcpod .[a1ep >1e1t,(atuac7o1zs7Ku) u,mu-uoqDJnpO: 7,Qpy) a30 : 1 :ełrorcglełr,{uorneub|rguaz -erder 'br1quł ,tr duuin1oy .6.1 ru1uns,fieu duuzuąod 8u,rr lc'oilBł\ śc1e|etn tse| |eu.l93 -e1spezrdnIIBDIo!ilZIZ.onz ercąund '/ńeu?ł\ołpors'ftrrts l8eł\ arul'tJo8le ru'{1 16 nulą
7r{łq3lsu1welBold zazld euozlotyt]sąnpv qc'{uupruolqz BIp € . ĄdouoJneu9e15.3.4 .s'(g poĄ\op1.A :Ś']Iłls_lBlp?tĄ po1ul&ias:sryą$*ląll*X p€3JoĄ{(1sntg}s*l$ !"|^l pe'"uąĄI:9ł1sls*pr L'?lĄ p3i'iBl1'*.rrnoN:Śą?1Ś*l€1pvlĄ Eu1ssllą:sxx;3*ryo,16 3}Ylrl.td:śs'l3_łlol& p*.{o1dxł..1 :ss"l'{Jo^,t 1o5 ss€ I'łJo/h l ua.{Ju.'e^oc: {s3 r-r3d-s:norl ssol-1*l1drn urxS-lwrdur apu|Óc:x's ą?}t:xÓ' J?i|]o:?Jat oul lłsa-r'$pal-Jal'Y
ia'?J
rapaBl$l-3Bd-u3!5Y:a:xlJ łielN:'}pl ollrłń:a3w &nu-{r$auJnpa a$s
..o'!EIcn'*
l3^a1 : łlquuY^
Rys. 7.9. Niektóre z wag sieci neuronowej dla rozpatrywanego przykładu z dochodem
w ftelaiiv*lmp*rtanta*fln t, c a p i t a l - g a i n , educati$n-nur$ 1 l I 1 I
Rys. 7.10. Najważniejsze zmienne: wynik analizy czułości
il.71S$1!
0.4s6:2!
h*urs-ner-w*ci{ il":9s3fi1 stalil$ lł1aritaI aqs f asitsl-lsss
r**e Wsrk Class sex
0":rns1
n.2372fi? il.:2*84{ il.'1S3$nE tr.1$079
0 . [ s 4 31 8 4
Wyraźnie wynika, ze zwiększenie kapitału (ang. capital-gain) jest najlepszym wskaŹnikiem, czy osoba ma dochód mniejszy niż lub równy 50 000$. Na następnym miejscu znaIazłasię zmienna określająca|iczbę lat poświgconychna naukg (ang. education-num).Inneważnezmienne to|iczbagodzin pracy w tygodniu (ang.hours-per-week) i stan cywilny (ang. marital_stattts).Nie wydaje się, by płeć (ang. sex) by|a zmlenną o dużym znaczenil. oczywiście, na model sieci neuronowej wpływa dużo więcej czynników. Mozna naprzykładprzeprowadzić dokładniejszeprzygotowanie danych, model mozewymagać
.n1uoulolue{Iup€pls o8ełB{uI o8oznp € I ue'ĄAńZn '(pełr r ś1a1ez zsldg . I I 'v,Iuezcneąluu.{zc1gdsłro8e1erur o8eznp errre.łu(zn fpułr r ś1e1ez zsldg ' 0 I
'gss lumururu .ouueJts e.ttouorneu .6 eupqo18b|np|euzeZsMvZzervreruod IceIS :zstre1 śzcep.ĄĄeJd .ńzou3ord
pt1q '(zs|eruul e|npołrod8ełt eruer.tnuldodaz ,4eĄod.Leluozlltlrc op óls |e1o.t.rpg' 8 'ercplel n o?auozczse[un leuzcelszvr lfce8edordnpep1dzrdz tIEma8ć11.{I1n .tl\m ?eh\ Ic9ou€ . t e.ĄAou ZcIIqo . L '(urue1,(qceu) leupoqc .9 -od ru1euzólce8eu ele:.fu\ez r8ełr |euceqolc'oilz'i!\ eruerupnDlen o8ezcu1p.ftu9e|ń16 .qc,&lrouorneu .zstdg . qcelcols ^\ 9'o^\olu{el:uełevp ąe| 9 .qcru Z zsrdg 6e1,fu4nuł\JsJB./Y\ etrean śzc,eznp 1sa|ezsde1śz3 .y |ep1eĄ$e1ez t '(pu,t.r .ĄĄouoJneu e|Uepezeu.tr9131se|eqe1 .g ;|ełrolcglełr'fuvr1srułr 'eu1ed (c .e.uoąuruen1oupe|(q .€ . ^Ao.^^]sJs1Y\ (8
.7 :le.ttouorneurcels ńqcac ectlndó1seub,|ezceuzooc .|ruse|'(1a1 , p 9/|ĄDfn1nq'file e1p |euueturZ DIIlułJaluZ|ryugep7 .|ełrouorneurcersnurfro81e e1p .1 0I.9 łeq€] z ouep 9eno1o?śzldzslsruua4,Klll49p7
P!UoZC!mC'9 t't,,.:,t,ff '9007, spo141aw 3u1u11y nloq'asorc11erueq[g] (\'s1apo741puo fN'uo{oqoH'ecuercsrelul-'(ell .966I .puuluod,3uturyąD10(IpuD uo .plJq'(q Klaa.ocnqa3pa1uouauo acua.t'aluo) lDuollvluaruIpuz aqłlo s?utpłaJoJd oe4 uolslJep V :sJagISSBIc seńeg eAIBu Jo '(cerncce eqt dn 3u11ec5 śIABIło)ńuuog
.866I VJ .eutnl1.ocuelcsre1ndruo3pue uoleIIIJoJuI .€IluoJlIBJ Ąlsre,ttu1 Jo 1uerupudeq 3o
[7]
.Tullq. ń.ro1t sodeETI^T/uf,eeTuJ-/npo. . sJT .1v11vMĄ/ : d11q / Tcn .esuqe1eq8umree1 euilłce6 ,fto1lsodeu ,zn1,,\1.1.J.eł€ I fl .T .J 3o IJn t€ ] .666I .e8ppqruu3 .sseJd ,s4"toap71IDtnaNptc{tłly p"mAĄJoppa VI^I JIW .I .peed .(I -ag ul 3ulu"t0a7paswJadny :3utqilulg pJnaN.II SłJ"I^tr ueqod ilessnu [z] .L66I .IIĘ{-ł\?JDcI^tr ,?utuloa7 aun1JDW.Ileqcu^tr.141 uIoJ [I] łJo^ .Ą\eN
PJnlPJ0lll'V l' L t:,',,,', .,.fin1ere11 po.qc'(uep 9 Dlund Z)eqoz.tcso1nzc óz\eue od qc'(ueperue'ĄĄo]o3'tzld eZJoIqZu'$slłr,&cezr uu lełrouoJneuIcels nlepolu ewvłBIZp ?cyoł op ną1tzcod po llzp -a19ezrd,(qy 'euqopod ur'fi r o8ecbfnlsel ruorqz o8euolerzp,{,r,r Scourod uz etuezpnutds 6?l
Cwiczenia praktyczne W poniższych ówiczeniach użyj zbioru danych churn znajdującegosię na stronach internetowychksiążki. Znorma|izllj dane numeryczne,zakoduj zmienne jakościowe,rozwiąż problem skorelowanych zmiennych. If. Stvtórz model sieci neuronowej do klasyfikacji zmiennej churn, opierając sie na innych zmiennych. opisz architekturęmodelu. 13. Która zmienna pod wzgledem ważnościjest uważanaza nĄwazniejszą do klasyfikacji zmiennej churn? 14. Porównaj model sieci neuronowej z modelami CART i C4.5 dla tego zadania z rozdzia|u6' opisz za|eĘ i wady modelu sieci neuronowej w porównaniu zinnymi. Czy czy rozbieznośćwyników tych modeli? istnieje zbiezność,,
.tufmoultpleJ Iue]ezpnq Iufł€ru Z ewla b,1eulzazld o8euułro>1npord'irr |ełto4u.& ńzslu z n11npordo?eunred ^\9}ualplqc'tqe|cue1od '(dru8 eIueZJeIIueN. :?|nru|eqoqcelwpuq I elseuzlq ryrerue/Y\odruiyepez śp"łł*,a t,,nl(zczs az łse|etcśztuorzod śzszlu'(udfisu5 .IueJouoqluqpu 1se['(dru8 |e1 1epeds ez śue7'etrłrn .qcercgeru łeuołzc 't1brserzpoc - elsn$In1łr erc,'tzt łrg|epłl'&rd op ruefezcKnzśzldb5 -pazld qcp1sye1'fterueqc,{zs1e3oq|eu eu btfiz śzlgt4.unpogqcfre1s fcrerqo1peds I lc9II -euo|se;ord tzro1ąer'(p :oJeuzn,, :z(cb|ndólseu poolg enlg I0 ńdru8 srdg se1e1sg 1sa[ 'rturellT Sunoa :gg ednrg o 'surBJgpuu,(euop1:16 edrug o .oIJJIJ s.JeuułY[ :7g edrug o .xltrĄI u€ n ueqog :0I udrug o 'setutsg poolg enlg :I0 edrug o :ol ilIIJoJIIu' ł\ sIIlH '(1reneg,01706 npoł BIp euervro>1g'(1ueprz '(dru8 ez,pey4izld eu 'tru|ruulod0zl1.elcśz n1'{1suepó18złr pod qc,duozcoupeĘ qceue15łr o8erno1zcodnpoą o8euep uor8er śpveĄ efnstdo 'ft9t{ .IĄZtud l|cetueru8esrue1s,(s1se|uruułrodru8łrguzluzqcau qcfuu,yt,lznz ulńupe1 .'tłro}zcodpoązazld o8euo19e.qo.qcfuozcoupeĘ qceue15m rnguor8arqcśuzcg -er8oe8 z o?apzen n1gord o3euzcger8ouep oluelme1spezrdóls elnp|euz 3n1snqc'tudó1s .cul SB1IJ€IJ peg'Łrd uy .op p9J9l& .tuerue.todru8órs e|nu|ez elu1uuo|se;ord [61]
quru lseru#t;fr"r"
-eł\ł\9pJołeJo^\]syelqopodur,{zct|zld.śdnl? qn1'tdn.r8podeupo8z oł\o{unso]Słr qc'(u -vp lglqz ńpc gąelzpod elnqgrd eru€^\odru8 ul/ro81e .o3e1 leuuenuz lcg 1sururuz.nlec .ceno1g'(sep1 -ou?ł\ genśplnazld qn1 efnqgrd eru uruełrodns? ettmpe7.n1 9unocezs -ec feuuerruz eul ellu eruuł\odru8 nąped'Łrd nt ez ,wś11|ceąg't9up1 po óts |uzgl eIUeM -odrug .dru8 qc'(uul Z ł\gpJołoJ op euqopoderu r ua|ez,treu elqels op euqopod ?s er -gDI .1Y\gpJołeJ IueJoIqZ (la1sn1c.8uu) udnrg .ł\gDlelqoqc.{uqopodfse1ą łr łr9>1 5a| -pedśzldqn1 rlcułrresqo lrr9pro>1er eruełrodruBezceuzo (?uua1sn1c.8uu) eruu,tł,odn.rg
Plupmodnro oluPpPz'l'g xffi
qclupoJ$.ł bpolotu o!uPmodnl ! ouzc!qcJpJolt|
o Podział zachowań finansowych na korzystne i niepewne w celu kontroli obIiczeń. o Redukcję wymiarów, gdy zbiór danych jest opisany przez setki aĘbutów. o Grupowanie ekspresji genów, gdziebardzo dużogenów mozewykazywać podobne zachowanie. Grupowanie jest często wykonywane jako klok wstępny do procesu eksploracji danych, z wynikowymi grupami użytymi jako dane wejściowedo innej techniki' takiej jak sieci neuronowe. Z powodu dużego rozmiaru wielu obecnychbaz danych, częSto jest korzystnie najpierw przeprowadzić ana|izę skupień, aby zredukować przestrzeil przeszukiwań dla algorytmów. W tymrozdzia|e, po krótkim zapoznaniu sig z grupowaniem hierarchicznym, omówimy szczegó|owo metodg t-średnich;w rozdzia|e 9 omówimy sieci Kohonena, strukturęspokrewnioną z sieciami neuronowymi. Analiza skupień (ang, cluster analysis) napotyka wiele tych samych problemów, które omówiliśmy w rczdzia|e o klasyfikacji. Na przyktad musimy odpowiedzieć napytania: o Jak mierzyó podobieństwo? o Jak zakodować zmienne jakościowe'' o Jak standaryzowaćlub znormalizować zmienne ilościowe? o Ile grup spodziewamy sig odkryć? euklidesową pomięDla prostoty,w tej książcebędziemy posługiwaćsię odległością dzy rekordami dBucta"u.r(t, )) :
wartościm aĘbltów dwóch gdziex : X', Xf, . . ., Xmi y : yt, !2, . .,, yn reprezentują jak Manhattanu lub odległość miar, takich wzorców. oczywiście, istnieje wiele innych -block distance): wielkomiej ska (ang. city : dMurhmun(x,y) I
lxi - yil,
(metryka) Minkowskiego, która reprezentujeogólny przypadek poprzedlub odległość nich dwóch miar dla ogólnego wykładnika q dlrinto*ru(t,
)) :
W przypadku zmiennych jakościowychmożemy znowu zdefiniować funkcję ,,rózne od,, porównującą wartościi-tego atrybutu dla pary rekordów rózne(xi,,,, : {9' [1,
EdYxr : yt, w przeciwnymprzypadku,
gdzie x; i yl są wartościamizmiennych jakościowych.Możemy wtedy zastosowac funk. cjęróine(xi, yi) dla l-tego aĘbutu w powyższej euklidesowej mlerze odległości. Do optymalnego działania algorytmy grupowania, tak jak algorytmy klasyfikacyjne, wymagają normalizacji danych, takzeby zadna zmienna ani podzbiór zmiennych nie zdominowała analizy. Analitycy mogąuzyć albo normalizacji min-max, albo standary-
''(dru3 leuqoso e|n1uezerderelu pJołeJ Kp4eĄpl9dop ,(dru8euqoso r*reru|'(cuern4errur'tuz1erzp .erdn.r8 -ZoJ llu?pJołer rul'(uqopodelu |arzpruq|uu z !e7np |eupe|.t rurń1re'uezIu€pJołeJ ru4ą]s,{zsłrzb,teuśzcvzo8euzcrqcrererqeruułrodru8actfu1a;zpzo.r,(po1e141 '(dru8 feznp |ezcuńpefodop bze1eu,(pro>1er er51s'tzsłrncyo{ lA. .nłoDIrufp7a1 łl uepe| o eu€^\ołnp -er qc'{uepeZJoIqzłr uerdnąs aqzll| qosods uet ^1 .ódru8 bqgds,u Łłrou łr ds izcb1 1se[ oerqers .(urueldn1s)'tdru8 erłrp .{łcBłoDIqcfule1o1 łr .erudó1se5 .n1 |oatqleu ts oJ9DI -ueuele o3ezcu'{pe|odz o>11't1 órs bctlepe1ąsbdnr8 t1uru 1se[e|ce,trasqo ep?eĄ vI ,eF eperyz ołro4tzcod o8euzcrqcreJeĘBluB,il\odru8qadu['(eu.rauro13u II'BpołaIu 16 .dru8 qc'(cb|eru1sl(eui'{cereuro13eńpo1eru) atuazcb1qn1(acŁ|e1e:zpzol 'tpo1eru) oIueIeIZpeu -l'tcuernąer zeudod (uru.r3o.rpuap) e1seuvrez;p eJĘłru1seuoZJo./KJ 1se[ru,(uza;qJJuJoltł npu,tł'odn.r8ł[ .euZcIIłcJBJeIqaIu oql€ .euZcnłcJBJeIqoq1e Łs eruełrodnr? '{u4'{-ro31y
.z.8'i,:.:1 o0euzclqcluJe!q P!uemodnl0 ńpolo1^| .rlcuerrełrl|zl1eueo8ecŁzc'(1opntrsńruodop euzcr8opuu ,((l,cfu uollqlJn^ Ja$nlJ-ulqilu .&ue)fdn.r8 z.r1tu,lra'll elsues ufułred ł\ o1 ]sef t1c9 .ouuapuz ez nlueu^\9Jod,tłeznp ((13fl uolwuDĄ Ja$n1J-uaawaq .?lle) puudn.r8 6et .dzpó;tuodJsouueluz ev el':1rzł.łroproąer '{dru8 9u.tlopnqzt|nqgrd eruełrodru8,{ultfuo8 .'t,tnotrs -Ie .I .8 ru1unsńreu ouuzn1od>1u| pr,{uu1.ełuu ozpJeq lso| dru3 qcfuur Z ^ĄgpJołeJ op o^losgelqopod,,(p3sezcpod .aznp ozpluqlsei '{dru8 zł?ułrełr ,ł\gpJołeJoł\łsgelqop -odez qcqel .łrgproąerdru8 u|ceągĄuep11se|eruełrodru3po1eurqcr51s'tzsłrueleJ
(x) o
: *x Brc€ZfJBptIB]s (X)€ r upeJ9_ x , (X)seplez e|cezII€IIIJou
(x)up - x
*X
qJełEIzpZo J qc śzs|arugszc.ĄAe^\ qc'(uurłruuro .r lcez
ruredruE fzpórurod trcgouuerurzez nrueu'vrgrod łr '(dru8z4tu,trełtcsouuelluz tpru 9erurdum,tod ddrug .1.3 .sdg
\ fdnr8 z.Ętu,trełr9gouuelruz
1-""'-
Zajmiemy sig metodami aglomeracyjnymi, poniewaz większośćprogramów komputerowych, które stosujągrupowanie hierarchiczne,uzywa właśnietych metod. Poj ęcie odległościmiędzy rekordami j est r aczejj asne,kiedy zostanie przeprowadzone właściwekodowanie i normalizacja. Ale w jaki sposób możemy określićodległość między grupami rekordów? Czy powinniśmyuważaćdwie grupy za bliskie, jeżeli ich najbliżsi sąsiedzi są blisko siebie, czy tez ich najdalsi sąsiedzie są blisko siebie? Co z kryterium, które uśredniate ekstrema? pomigdzy dowolnymi grupami A i B: odległości omówimy kilka kryteriów określenia (ang. single linkage), czasami Zwanarówniez o Metoda pojedynczego połączenia metodą najbliż'szegosąsiedztwa,jest oparta na minimalnej odległościpomigdzy dowolmięnym rekordem Z grupy A i dowolnym rekordem Z grupyB. Innymi słowy,odległość dzy dwoma skupieniami jest zdefiniowana jako odległośćmiędzy dwoma najbliższymi punktami, po jednym z kazdej grupy' Mętoda pojedynczego połączeniama tendencję do tworzenia dtugich cienkich grup, co czasami możeprowadzić do połączeniaróznych rekordów. o Metoda całkowitego połączenia (ang. complete linkage)' czasami zwana równiez metodą najdalszego sqsiedztwa,jest oparta na maksymalnej odległościpomigdzy dowolnym rekordem z grupy A i dowolnym rekordem Z grupy B. Innymi słowy, odległośćmiędzy dwoma skupieniami jest zdefiniowana jako odległośćmiędzy dwoma najbardziej oddalonymi punktami, po jednym z kazdej grupy. Metoda całkowitegopołączeniama tendencjędo tworzenia zwięzłych,kulistych grup, Z wszystkimi rekordami w skupieniu wewnąttz kuli o danej średnicy. o Metoda średniegopołączenia jest stworzona, aby ogtaniczyć wpływ ekstremalnych wartości,takichjak najbliższe i najbardziej oddalone rekordy, na kryterium połąwszystkich to średniaodległość czeniagrup.w metodzie średniegopołączeniaodległość grupy maj grupy B. Wynikowe grupy rekordów z A do wszystkich rekordów Z ą tendencję grup. do prawie równej zmiennościwewnątrz Sprawdźmy' jak działajątemetody potączeńnaprzykładzie nastgpującegomatego, jednowymiarowego zbioru danych: 25915
1,6 18f533334s
polączenla poiedynczego Metoda 8.2.1. Zalóżmy, żej esteśmyzainteresowanimetodąpojedynczego połączenia aglomeracyjnego grupowania hierarchicznego dla tego zbioru danych. Metody aglomeracyjne zaczynają od przypisania każdemurekordowi własnejgrupy. Następnie metoda pojedynczego po|ączeniaposzukuje minimalnej odległościpomiędzy dowolnymi rekordami z dwóch grup. Rysunek 8.2 pokazuje, jak jest to osiągane dla tego zbioru danych. Minimalna grup jest oczywiściepomiędzy grupami jednorekordowymi, zktórychkazdy odległość jest zerowa dla każdej meĘki. Zatem te zawiera wartość33 i dla których odległość dwie grupy sąŁączonew nową grupę o dwóch rekordach, z dwoma wartościami33' jak pokazano na rysunku 8.2. Zalwaz, ze po kroku 1, zostałotylko dziewięć @ _ 1) grup. Następnie w kroku 2 w nową grupę są łączonegrupy zawierającerekordy 15 i 16, ponierówna 1 jest najmniejszą pomiędzy dowolnymi pozostałymigrupami. waż ich odległość
,auozcbłn^rouz gg bs ect|eremrez '(druE etłrq .I nłoDI neluazcb1od o3e1r.to41ectpo1erue ,eluazcb1odo3ezcu'(pe|od tpo1eu 'fupórulod śctuzgłBIu eru .pJo{eJ ńzcuńpe|od o41d1ererarrezudru? ep1eĄ Z.?Ąeluod : I łoJX . .qc'(uepruoIqZ o3e1e1peruułrodn.r88erqezrder.te1spezrdg.g .elqels po ąaunsńg euoluppo |alzpnq|eu Łs oJ9DI.dru8qcg.trpZ TIlI€pJołeJ'fupórulod 99o13e1po 9elr\ozlpruru -nuz ecqc eluazcb1odo8e1łno4;ecBpo1eh[.qc,tuupruolqz plq9Jd |e1rueruu,tn,odru8 ur'{uur oł€^\ołtn{S alzpÓqeruezcb1odo3e1rzrro4ucurnueł(Ą elc,|zn śzc,śulvpmerdsetudó1se1q
.z.z.8 Bluozculod oool!filołłpc Ppolol^| .qcńuep ezlolqz łr ńpro4er errns'(zsłr zele!eleltlltez ednl? "Iulelso BJ .{97} bdru? z vuozcb,1od e|e1soz . udrug :6 yoJX {t,e,t,€ , 9z,8I,gI,9I,6,9,z} 'ruredru8rur,{1e1soz -od 'Łpórulod |aqeunururIcsouB1Y\ r1ńzc.tuerso€u^\gJ lse| € l 97 śzpÓlulod99o13e1po ,{t,t,t,t,} zełraruod bdns? z euozcb1od e|e1soz {;Z,8I,gtsI,6.s,7}udrug :8 łoJX . 'nuedru8rur'Q -u1sozod'{zpórulod|eu1eurrurur lc'oue.ł\qńzc .urepetsBuł\9Jtse!sz r 31 fzpórruod99o1 -3e1pozumeruod,{g7}ledru?zeuozcb1ode|u1soz{8I.9I.'I.6.g,7}edns':lło 'nuedru8
rur,'fiu1sozod ,Łpórurod |eqeurrururlc9ouu^\l1śzc,t,sa1zc Bu.ł\gJ 9I l 6 ,Łpórulod 1se| .{8I.9I,9I zełreruod efe}soz edrug :g4oJX . 99o13e1po } adru3zeuozcb1od {6,s,7,} .rurudru8 rur't1u1sozod,(zpólurod |eqerurururlc'oil€^\ l1śzc,śn1zcuuł\-oJ 'rł'tpro>1er ezszqq|eu)6l g 1se|(erdn.l8|apz.eĄ 'kpórulod29o13e1po zełreruod.{6} tdru8 zeuozcb1odelu1soz {9.7}udrug :s łoJX . .{s} l tz} '(dru8euozcb1odbte1so7:f łoJX . .ruedru8rur.{1e1sozod 'Łpórurod leuprururur Ic9oue^\ t1tzc,emp uułrgr 1se| (eldru8|ep?eĄłr'(pro1erezszqqluu)8I T9I '{zpórul99o13e1po zełreruod.{31} tdru8 z uuozcblodeletsoz({qt'gt} edru8)9I I EI rcgoUp,trecbtentnez edrug :t IorX . ol PtoDIeudó1se5 ur.{łlope14,(zrd eu etuazcb1odo3ezcu,(pa|od tq|jffi "]ł}}T,*,",,erue,trodn:3 aul,(cureuro1ay.z.8 .sdu -<----=>-
.Ez'sl.ql:ł=łs 7l l-...--_-Et.gE.Ee ł
/\
It
<-------..-
f- u,ttź,,gl.gt.i.6śż-1
||
|-
-<------> .8I ,sl ,sl
9Z
^
G.;ż___f <-----:--
a--= .qtĘl [ sI
||
<.>ll
sr rrsloTT-l
f
l\
11
,, ll
U
n<^>A<.>
tr''gl Ll T tr'Tl
=---=-
f-as,|-f
T
f'-
i
-[,--Tl ą F V . = t F ]V V * R F | trs| 16I
,.rt--l t-----=--F-
L
rs.16, r8-l t----=---
lL
E3rt
f;rt ----=--F-x-l
tl ll
V
|Eć'3' -----_==-
-
Rys. 8.3. Aglomeracyjne grupowanie hierarchiczne metodą całkowitego po|ączenia na przykładowym zblorze danych
o Krok 2: Tak jak w metodzie pojedynczego po|ączetia, grupy Zawierającewartości 15 i 16 Zostałypotączone w nową grupę. Znowl,jest tak, ponieważ nie ma róznicy pomiędzy tymi kryteriami dla grup z jednym rekordem. o Krok 3: W tym punkcie metoda całkowitego połączeniaodbiega od swego poprzednika. W metodzie pojedynczego po|ączeniagrupa { 15'16} bylapo|ączona Z grupą { 18}. Ale metoda całkowitegopołączeniasprawdza najdalsze sąsiedztwo,a nie najbliższe. Najdalszymi sąsiadami dla tych dwóch grup są rekordy 15 i 18 z odległościąrówną oddziela grupy {2} i {5}. IGyterium nic nie mówi, co nale3. Taka sama odległość zy zrobić w przypadku remisu, dlatego arbitralnie wybieramy pierwszą ze znalezionych kombinacji, zatemtączymy grupy {2} i {5} w nową grupę. o Krok 4: Teraz grupa { 15'16} zostajepołączonaz grupą { 18}. całkowio Krok 5: Grupa {2,5} zostajepo|ączonaz grupą{9}, ponieważodlegtość jest 7, czyli najmniejsza wśródpozostałychgrup. tego połączenia o Krokó; Grupa {25} zostajepołączonaZgrupą{33,33},z odległościącałkowitego połączeniarówną 8. catkoC Krok7: Grupa {2,5,9}zostajepo|ączonaz grupą{ 15,16,18},z odlegtością połączenia równą 1 6. witego całkowio Krok 8: Grupa {f5,33,33} zostaje poŁączonaz grupą{45 }, z odległością tego połączeniarówną f0. Wszysto Krok9: Grupa {2,5,9,15,16,18} zostajepołączonazgrupą{f5,33,33,45}. kie rekordy sąteraz Zawattew ostatniej grupie. W końcu, w metodzie średnichpo|ącze(l,kryterium jest średniaodlegtośćpomiędzy wszystkim rekordami z grupy A i wszystkimi rekordami z grupy B. Ponieważ średnia z pojedynczego rekordu jest wartościąrekordu, ta metoda nlę r6zni się od wcześniejszych metod w początkowym etapie, gdy grupy zpojedynczym rekordem są łączone.W kroku 3, metoda średnichpołącze(lstaje przed wyborem potąc7entagrup {f} i {5} lub pomiępołączeniagrupy {15,16} Z grapąojednym rekordzie {18}. Srednia odległość jest średnią z |18-15|i |18-16|,czylif,5, podczasgdy dzy grupą{15,16}a grupą {18} pomigdzy grupami {2} i t5} to oczywiście3'Zatemmetoda średnich średniaodległość potączeńpotączyłabygrupę {15,16} z grupą{18} w tym kroku, a nastgpniegrupę {f} z grupą{5}. Czytelnik możesprawdzić, ze d|atego przykładukryterium średniegopołączeniaprowadzi do tej samej hierarchicznej struktury co kryterium catkowitego potącze-
'dru? ńruge1se|zerc p.g n4unsfr eu qc^(uełros'tr 7: 7 urelc'(rąpolll3,/Y\oseJe]uruz .3u I I.8 1eqą ^l qcńueze1od \uezqsezld |ełromrru'itlnł\p1Y\qc'{uep ngqund IueISo ,tureu az ,śl;lz91e7.qclupeJ9-ł r4ńroE1e ełevp 4e| .ezpe;r1tĘzldeu 6s iantśzltśzl4
.'.8 :|.:::f qclupet$.ł pPil^zJd nuilIoolpPluBlPlzp ''(dnrB !e1-1urep1o4uec]se[ !rue,eldnl? |art m qcduup Ęund ńpzą e|n1uezerderl3 > d etzp? t3>d 1:r
'z(u.t'd)p 3 3:
sss
:o8anolerp*^a opap o8euzc,{.rurunseruezsleruurz o8euło1slłBJq łP| err1e1.rc9ouzelqzunue1ń;1 eu.łred1se[euoupds ,(p3 .etuu1evp9śzc -yoĄez ezotu urł'{ro?1e,|azcea1'eldru8 |et ',r.rŁlursozod '(dru8 DIpoJ9 op ..euusld'tzld.. ńproąer erx1sńzs.tt4) ,.., .ZJ ,I) dru8 qcqrsńzsł\ elp ,(p3 .etueptzp śzuqonulfuo8 -p t'vro1s rur'tuu1.b|vluelulz eru órs zn| '(plo4uec ńp3 .erue1uvp śzcyo4r4ńro?1y
'(oo'I'91'I'sz't) : (i + I + I + I
T + T , + 7 , + IZ + I + I + I
'(u.tgr plołuec 'tq'ipttu(I.I,7) I ( I.€ . I ), (I,7,I) ( I. I. I ) Ą1und pep1śzld vN. (u/ !c 3, u /, q 3,, l lo 3) elc1und m órs elnp|uuz I 1Y\9DIund qc'! lc9o1zólc ueDIpoJS 1se|łlgu1undqc'! ploJ|uoo 'qgsods "'(zr'Zq'zo)'(Ic'Iq 'lzz)qc,(uepmgqund u Kurcutez'Kutz91e7 l(uc''q''o) 'tct|ndótseu łr órs ezcqqo n>IoĄ zrr,(dru8 plołueJ .elleł\oso]sZeIu^l9J9'(q ?8ou '{r ' -€nu euuTI ZBlr,oIąc.gn1qundZ ..Icsołsqq..bJetul ep1'Qvrz 1se|ur'roseprp1ne 99o1?e1p6 'ertuezcuo>Iez qnl rcgouzarqzop S op g po ploDl lezrc1lrlro1:gIotX . .nplołuec ?gou€ł\ Łłrou o1e|ddru8 aporg o8epzu1eruezo1odftupn11enr ńdru8 prulua) vppuz dru8 ryZ |epveĄelq:ż 4oJX . ' ,ZJ ,I3 .qc'(uup dnr8 ryńureur ze1o3e1e1q .olsues 1vlzpod a|Ęuezerder anrilvz łrgproąer rgrqzpod ..€p€Isod.. ,(dru8 1epor' f,p?pł urńułred nt ,ula1a7 'tdru8 łepoJg śzszqq|eu7ppuz npJo>IeJo8apzeą ?IQ ..' )loJX . .dru8 qpo"lg ełro>pbzcodoąel łrgpro>1el >1zsld(zld ołroso1 :Z 1oJX . 'AuoIorzp -od uerurłrodqc'(uup lg\qz (D dn.r8e1rBu .BłIuł\ołlńzntel\deZ :[ yotx . 9e1soz :qgsodsfct|ndótsuu łr e|ndólsod u4fro31y .qcduep .,rrńdru8 ru,(cblnp -|euz tlrraqślo8p tuńułt,(qe;e r ur,fisord 1se|[1] (suoaul-4 .8ue) qcppalg.7 tufi.roĘy
.e.8 ::,,.ff qc!upol$.ł ułńJo0lv ' etuezcblod o8azcu'tpe lod ?poleu qcńuuurdzr1o dru8 op ?r.uwuezcb1od o8e1vrto4;ecbpo1eu qc'(uo1sdzn dru8 op tue}łB1zs>l qc'(uqopod |e1zpnq dru8 op rzpeunordeluazcb1odo8eruper9upołalu .tc9oq93o lA' .€p
Tabela 8.1. Punkty danych dla przykładu ł-średnich a
D
c
( 1 , 3 ) (3,3) (4,3)
d
e
f
n
o
(s,3) (r,f) (4,2) ( 1 1 ) ( 2 , 1 )
Rys. 8.4. W jaki sposób metoda t-średnich podzieli te dane na k :2 grup?
Zastosujmy algorytm krok po kroku. o Krok 1: Zapytaj użytkownika, na ile grup (k) zbi6r danych powinien Zostaćpodzielony. Już wskazaliśmy,jesteśmyZainteresowari k :2 grupami. o Krok 2.' Losowo przypisz t rekordów jako początkowe środkigrup. w tymprzykJadzieprzypisujemyśrodkigrupjako m1 : (I,I) i mz : (2,1). o Krok 3 (pierwsza iteracja): Dla każdegorekordu znEdź najblizszy środekgrupy. Tabela 8'f za,wiera(zaokrąglone) odlegtościeuklidesowe pomigdzy kazdym punktem i każdym środkiemEruPYmt : (1, 1) i m2 : (f ,I), razem ze wskazaniem,który środek jest b|iższy' Zatem grupa 1 za,wietapunkty {a, e, 8}, a grupa druga zawiera punkty do grup zosta|ajuz przypisana,mozna obliczyć su{b, c, d, f,h}.Kiedy przyna|einość muryczny btąd kwadratowy Thbela 8.2. Znajdowanie najbliższego środka grupy dla każdego rekordu (pierwsza iteracja)
a
2,00
f,24
Cy
D
'R?
))4
C2
3,61 4,47 1,00 3,16 0,00 1,00
2,83 3,61 l,4r
C2
z,z+
C2
1,00 0,00
C1
c d e
f o
h
C2 C1
C2
o] o8eł\oluJpe^Dlnpółq oflauzcś,seulnscSouB'/Y\ e.,noN .{{,p,c,q} oł(, edru8u ,{q,3,a,D} ot .orupezrdod edruBze1o3e1e1q oc qcudru8 I qc'(uresqc.Ę łr ble1sozod'(pro1er e1e1sozoder11s'Łs16 . 1 '(dru8 op zercl śze1uu ł pJołeJ o3e1u1p,Zru ?Iu Iw |e4lq zure] órs efnpiuuz ?.1pJołeJ ez .e1rłrurdsZtu Ic1o;rcn eueIUJz €Znp o^\ołunsols .I 'tdru8 op 7 Kdnfi z (q) nprc4a.ro3ezcu'(pe|odercórunsezrd1se1
'(t,7|9,E): e1pplołueJ Is/G +T,+ + g + + + + € t),s/(z+ v 9 ' illol(,ńdru8 .((,,i : o1 '(dru8€ I ppIoJ1ueJ.nplo4uec + It,/c+Z+ę),t/G+ I I)] 1 99ope.trtłrou o>pf'tdru8s{porgo8epze4eruezotrod ftu1un14un r ,(dru8pro4uecVppuz dn:?y z lapVen u1q.,(dru8 : zulI ę,,D : Iul Kdns?ueI,IpoJ' op Łlc9ouze1uuśzldZloIeZeJ,(t,z|9,e) u'(uorqenp1znur'(pzuąu urep1undur'{pzeąfzpórulod rcso13e1po elnze>1od '.8 uIeqBI .,(dru8 łopoJ' śzszqq|eu vpFUZ.npro1ero8epze4e1q :@[nlay o7nlp) € łoJX . .nu4d-lo81e r|cere1r ł\ g qoĄ op '(urecurzrr córrvr4e1.e1órunsezld le18rup 't1e1soz '(pro4ue3.BTueZouołBZ qnl Ic9ouZoIqZ op ' I E ptoDl |uzlz1no1:9łoJX . qclupeJ'-ł nurfi'ro8p tlcerelr lezsiu,rerdod y fpro4uec r '(drug .S.g .sdg
.7 aldruB zrr.trgqund ntcórd DIpoJSop 99o13e1po b,cbzceuzo o^re.Id łt '{r93 op órs o1óunsezld ztu '{p3 suzcpod .1 erdn.r8łr łr9t4und IłJłZĄ 1 DIpoJ' op fr93 op óts o1óunsazld Iul az,śulzentnez,9.8 n4uns'tr 3u euol^\?lspezrd Łs lfc .ere]r |ezs.urerd ncuo1eu ('{la119o, '(prpo4usc r ńdru9 :@fcruag ozsu.tad) , ło"tx . .qcefcere1rqc'{ute1oąłr ńuzzs1órłrz alzpÓq1ruuńzc19ds^\ uel e? .,turelru1ezc6
'8LZO'O: : - : _ gSS % (zut'tut)p I
AJIY\ AJg
,{ureu .(fdru8 z4Łurnernrc9ouuerurz)n316 n1nf1s -qns oąu|g55 r (ruedn.r8,{zpólruodrcgouuerurz) AJg rĘq'{1sqnsoąe| (zul,Iru)p cb|un -,{zn .'(druB zBbunan lcsouueiluz urapó18zan ruredru8 '{zpórulod 99ouue[uz ełewozrle:ul -,(sąeulerrrełrodru8er8o1opo1eru ezseu 'tqe .,(ulsfqqelcqc .|arusezc.tł t|ulgl1śzceuzezĄet
.9€ : z0+ z0+zvz,(,+ zI+zlg,e+ zv8.z+ zvz.,Z! ! ) ) a I :",: 1
Tabela 8.3. Znajdowanie najbliższego środka grupy dla każdego rekordu (druga iteracja)
k
ssF. - \- \-
'
''
^ / _ t/ - d \ P , m i ) i:7 peCi
: l r * 0 , 8 5 2+ 0 , 7 f2+ r, 5 fz+ 0 2+ 0,572 + r r + r ,4r 2: 7,86, co jest dużym zmniejszeniem poprzedniej wartościSSE równej 36 i wskazuje na lepsze rozwiązanie grupowania.Również mamy
BCV WCV
d(mt,mz)
ssE
f,63 :0,3346, 7,86
co jest większe niż poprzednia wartość0,0f78 i wskazuje na to, ze zwiększamy zmiennośćpomiędzy grupami względem zmiennościwewnątrz grupy. o Krok 4 (druga iteracja): Dla każdej z k grup znajdźcentroid grupy i uaktualnij położeniekażdegośrodkagrupy jako nową wartośćcentroidu. Nowy centroid dla grupy . owy centroid lagrupy 1 t o [ ( 1 + 1 + I + f ) 1 4 , ( 3 + 2 + 1 + 1 ) 1 4 ] : ( 1 , f 5 ; 1 , 7 5 )N f to|(3 + 4 + 5 + 4)14, (3 + 3 + 3 + f)14]: (4;f,75). G*py i centroidyna końcu drugiej iteracji są pokazane na rysunku 8.6. oba centroidy m1i m2 zostałynieznacznle
przesunigte. o Krok 5; Powtarzaj kroki 3 i 4 do zbieżności|ubzakończenia. Centroidy zostały przesunięte, tak więc wracamy do kroku 3 w trzeciej (ak się okaże ostatniej) iteracji algorytmu. o Krok 3 (trzecia iteracja): Dlakażdego rekordu znajdźnajblizszy środekgrupy. Tapomiędzy każdym punktem a każdym nowo uaktualnionym be1a8.4 pokazuje odległości do grupy. środkiemEruP!mt : (I,f5;1,75) im2 : (4;f ,75),razemzprzynaIeznością Zauwazmy, żerekordy nie zmienity ptzynaleŻnoścido grupy zpoprzedniej iteracji. Nowa wartośćsumarycznego błędukwadratowego to k
SSE:t t d(p,m,)r pęCi i:1
: L , f 7 2+ 1 , 0 3+ 2 0 3 5 r+ 0 , 7 5 + r L , 0 6:26 , 2 3 , 2 o , f s r+ r , 0 3 + 2 o , 7 g+
-ĄÓIMZ'{qy .uńu1alol tuntururrułr óts e|nru,'(zl1ezo1sÓzco8el lspruruz .g55 o3eu1uqo13 Iumulunu elualzeleuz c€ł\o]ueJ€ł\Bez ezoln eru qcrupeJg-7rufi;o81u az,Kanzenne7 .ellJe1ielzpśzcyoąu4'fi o31e .euoluetulzeru'Ęu1sozod .Bluezcuołez qn|Il1ouzelqz 'tpro4uec Z'e'it\eluod op pIoDI |ezle1no6:s łoJX . ' € t .euoluenuzerutuu1sozod qalulrlrgJdru8 '(plo4uec ,(druB op Ic'ouzeluuśzłd1luemlz etu pJołeJ Iuepezzv1'.|eluod.nplo4ue3 cSouB1Ktłrou o>1e[ fdru8 e{porg oBepz?)1eruazo1od ftupn1ąenl ńdn-l8ploJłuec druB z :@tcola4 olłaay) o vp|euz 7 |apz.e4e1q f łoJX .ełuur lse| dru8 .eznp qc'(uul Z ^\gpJołoJop o^\lsgelqopod '(p3 sezcpod śdnl? zl1buna.ł\o/Alsyelq 1se| -opod ez ep1ul 'tdru8 auol9eĄo ozJqop c,Łrołr1s ,{qe .eruezvrodru8 nru/.lo8p o8epzu1 rJJeleco1lsel .,(dru8z4bulttrenlcsouuonuz ruepó18złrruredru8'tzpórulod 99ouuerurz,{ru -ezs>1ólnznł\ouz a4 ,o1eu efnza1słl. gvę,E,O \ 99olrułrelupezrdod ztu azs>1Ólnłse| oc T7,,9 IISS AJA\ L O L Vu : ed(,: 1'*''*: AJg '(ueur Zeu,,!\9d.eruełrodru8etuezbltytzolałrosuzcqc'$op ezsde1iuuuu e|nzu4s.t oc,98, LBuł\9JaSS 9gouz^lelupezrdod zlaezsteruvle1erłreru1se[
npJołeJ
o8epze1
e1p ,(dnrt
a1porg
o8ezszr1q|eu
(u|cen1lelcezą) .l.8 BIeqBI
eruerrrop|euz
qcruperg-r1 nu4f-r -o31er|cera11feńrup od y ,(p1o4uecr .,(dnrg.9.8 .sfu
szyć prawdopodobieństwo osiągnięcia minimum globalnego, analityk powinien kiłkakrotnie uruchamiać algorytm z róŻnymi początkowymi środkamigrup. Moore [2] sugeruje (1) umieszczenie pierwszego środkagrupy w losowym punkcie danych i (2) umieszczenie nastgpnych środków w możliwie najdalszych punktach od już umieszczonych środków. Innym możliwym problemem algorytmu t-średnichjest: Kto decyduje, ilu grup naIezy szltkać? Czy\i, kto określawaftośćk? Jęze|i analityk nie ma wiedzy a priori o |iczbie ukrytych grup, to powinien dodać ,,zewnęttznąpętlę'',która bgdzie sprawdzałarózne obiecujące wartościk.Zatemmożna porównać rozwiązanta grupowania dla każdejwartościk i wybrać wartośćk z najmniejsząwartościąSSE. Co będzie, jeżeli pewne atrybuty są ważniejsze niz inne do sformutowania problemu? Poniewaz przyna|eznośćdo grupy zalezy od odległości,wigc do ilościowego określaniawagi atrybutów mozemy Zastosowaćtę samą metodę rozciągania osi, którą omówiliśmy w rozdzia|e 5.W rozdztale 9 omówimy inną popularną metodę grupowania, sieci Kohonena, które poprzez swoją strukturęsą powiązane ze sztucznymi sieciami neuronowymi.
sAs woprogramowaniu t.średnlch algorytmu 8.5.Zastosowanie ffi;;..;,.....,.... Miner Enterprise
Przejdztemy teraz do potężnegooprogramowania SAS Enterprise Miner [3], aby Zastosować algorytm t-średnichdla zbioru danych churn z rczdziałl3 (dostępnegona stronach internetowychksiążki;również dostępnegona http : / /vww. Sgi . com/ tech/ mlc / db /)' Przypomnijmy sobie, że zbiór danych zawierał'informacje o 3333 klientach w postaci 20 zmiennych, tazem ze wskazaniem, czy kJient zrezygnował z korzystania z usługfirmy, czy nie. Następującezmienne zostałyprzekazanedo trybu grupowania oprogramowaniaEn. terprise Miner: o Zmienne flagowe (0/1): - Intl PlaniVMail Plan. o Zmienne ilościowe: - Account length, VMail Message, Day Mins, Eve Mins, Night Mins, Intl Mins, i CustServ Calls. - Wszystkie zmienne ilościowezostaty znormalizowane Zapomocą normalizacji min-max. Oprogramowanie Enterprise Miner uzywa procedury SASu FASTCLUS, wersji algorytmu t-średnich'Liczbagrup zostałaokreślonajako k :3. Trzy grupy odkyteprzez a|gorytmrózniły się Znaczącorozmiarem, zbardzomałą grupą I zawierĄącą9f rekordy, ogronrną grupąf zawierającąf4ll rekordów i grupą 3 o średnimrozmiarze za,wierującą 830 rekordów. Przedstawianie profilu grup pomożenam poznaćtypy rekordów naleŻącychdo każdej grupy. Rysunek 8.7 jest zrzntemekranu programu Enterprise Miner z wynikami grupowania zawierającymiwykresy kotowe ptzynaleznoścido,,planu międzynarodowego''
-€.ĄAoZIIuIuJouZ) .qcururruń,tł, Icsoue^l tpep1zol az ,a|nze>1od,pe1n,śzld Bu .6.8 ąeunsfg .99ouuerurzb,trellla|nze>1n qc'Ę 't.rdru? ołr1sgerqopod€ZnpeU cŁ|nzu>1s,trr s.8 łeqą.t,r dru8 .dnl? u1pqc'itłolcgo1tqc'(uuertuzq3lupeJs eluuu^loJod eluezlo.ĄA.]n nlec łr qc,it.rorcgo1uf qcńuuerurzeu órs eretdo nrudo]sur'{znp'tłurf'lo81e ez.'to.o>1ruńłr ,ącś|z?BpI.ĄA ousuf ...|ełroso18 K1zcodnue1d..fzcepetsodetu r.,(zcupetsod uu eru1eepr qc'(uep l9lqz cb,1alzp ,eluelu7glzor qcrupers-7 op tufiro8p zezld e1izn ołB]SoZ e1od oi .,tłrotrs rur ..o3eu1eepr.. -,{uu1.nuu1do3e1op fłrdhs'{zrd alu eJ91ł.,{qosoo11fi erelt.ruz udnl? ...[ełr 1s€tulo1eu 7 -osotr8ślzcodnuu1d..op ńpdĘsńzrd ergq .,(qosoo>11'$ t|erel.trezt,I I,(drug (,@u7sa(') alunu zpel't.rodpoelp .ĄĄ9JoIo{ eluecoJ,ĄApo ectlńtu uu ó8e,łrn Kuc9ln7)...|ełroso18 ń1 -zcod nuu1d..od ńtrrdĘs,{zldelgln.qoso 1uecordet,tu1spez;d .erudó]se51 3.3 1euns,{r tuzcbyzol eruruelez'l.rŁs ..|e,,r.r'oso13 f1zcod nue1d..op fcbze1euerur ,(ctze1e1q.8.8 .s.{u
I t
z
r
_']"lv-
ou3*ł6| uąg1,"11f
W,r. {*łW % .7 Kdnfi op ,{uqopod .ńproąerer5s.{zsłr 1sa|r et'tu1spez;d ,{łto1o>1 ser4ń.t.rf't.re1|erzpruq|euav,śuTentrc7.nue1d o3e1 op pdĘs'{zrd etu g ńdru8 Z .Ą^glueIPI Z uepez E ...o3e,topomuśzpólulnueld.. op rldŁłsfzrd 7 ńdnr8 op qc,{uesrd,{zrd 't.r9luer11 c93zc t 1 ,{dru8op ruestd.{zrdrcuep1 .{cs'(zs16.qcudnr8 qcezĄ fu\ reur141 esufue1ug utuu,toruu't3o;doz qcudru8 ,l.r..o3e,l.rozpo.teu,(zpórru nue1d..op qc,(cbze1uuIgoJd ...8 .s'(u
E9t
1!3 c'jrłł! |ti
Rys.8.9. Rozkład zmiennej CustServ Calls jest podobny w grupach
nej) zmiennej CustServ Calls są Stosunkowopodobne w każdej grupie. Jeżeli analityk nie uważaZa właściwądominację zmiennych jakościowychpodczas grupowania,to moze rozciągnąó lub skrócić odpowiednie osie, jak wspominaliśmywcześniej,co pomoże w dopasowaniu algorytmu grupowania do bardziej odpowiedniego rozwiązanta. Tabela 8.5. Porównanie średnichzmiennych dla grup wykazuje małązmienność "iutal :titta :.):.:,:)l
I 2 3
9f f+t1 830
0,4340639598 0,4131940041 0,4120730857
0,58269394'7r 0,5360015616 0,512633445r 0 0,5'731159934 0,5093940185 IntlMrns-nrn
I 2 3
0,5669029659 0,4'764366069 0,5467934'783 0,1630434783 0,550i417372 0,4773586813 0,51197843f2 0,r'75f6153f8 0,5564095f59 0,4795138596 0.5076626506 0,170147255'7
Dlatego tez grupy mogą zostaćpodsumowane w następujqcy sposób tyko za pomocą zmiennych jakościowych: o Grupa 1: Wyrafinowaniużytkownicy,Matagrupa klientów,którzy przystąpiliza. równo do ,,planumiędzynarodowego'',jak i do ,,planu poczty głosowej''. o Grupa2: Przeciętnawiększość.Największaczęśćklientów'zktlrychczęśćprzystą piła do ',planu poczty gtosowej'', ale nikt nie przystąpiłdo ,,planumiędzynarodowego''. o Grupa j: Użytkownicy,,planu poczty gtosowej,,' Grupa klientów o średnimrozmiarze,którzy przystąpili do ,,planu poczty głosowej'',ale nie przystąpili do ,,planumiędzynarodowego". Bardziej dokładneprofile grup, zawierające zarówno zmienne jakościowe'jak i ilościowe,są opisane w rczdziale9'
r|ceu8.,(zerop efcuepue1 .II.8 .sfu ń1zcod nue1d..op qcńctze1euerur qc(cŁze1eu qcedru3 ',r.r ..|e,t.r'oso13
#)IW'ar$3w
W '.'wW W 0| l3lśn]..)
-"t"tY-
r"ł*ld l8tlA
nue1d..op qc,{cŁze1uuerut qc'(cŁze1euqcudru8 łr rfcuu8ńzer op elcuepue1 .0I.8 .s,{t1 ..o3e,t.roporeu'(zpórur ąil1W *ż,*7W illj*lsl'rl:
WW
-1"!b'*
W l'r€ l d l]ul
.ot.g -łec qcpp1 .ĄĄgSeDIf,ĄĄ tcotuod €Z .lł33dru3qJ'{u n>IunsfJ eu az.'{unzprłr {€ | |nr'.,l .Iunq) |euuaulz ricu>1gi(sup -vgl tdolupeJ9odzeqfceuaKzel{alespo c€u.ĄĄgJod,(urezo141 nlJvpez ł\ urcu 'Ę8ouod ńqe .'(dru8 el J€.tosolsuz '(ug.{q11enqceZ 5lBupe! Ńl49p7
o!cń?n.t.9.8 opńdnl0op!c9ou?olPuńzld B!upfitńpltvlozld ;lcuu6ńzel
kowity (lewa kolumna wykresów kotowych) odsetek rezygnacji jest dużowiększy wśród klientów, którzy przystąpili do ,,planu międzynarodowego'' niż wśródklientów, którzy tego nie ztobl|t. To odkrycie zostało zauwazone w rozdzia|e 3. Zauwazmy, że odsetek rezygnacjijest wigkszy w grupie 1, która zawiera klientów na|ezącychdo ,,planu międzynarodowego,,,niz w grupie f ,która jest mieszaniną posiadaczy i nieposiadaczy tego planu, i jednak większy niż w grupie 3, która nie zawiera posiadaczy tego planu. Oczywiściefirma powinna przyjrzeć się planowi, aby zobaczyć, dlaczego klienci, którzy do niego przystąpl|i, częścte1rezygnajązkorzystania z usługfirmy' Teraz, poniewaz z rozdziałl3 wiemy, że odsetek rezygnacjijest mniejszy wśród uczestników ,,planu poczty gtosowej'', możemy oczekiwać, ze odsetek rezygnacji dla grupy 3 będzte mniejszy nlz d|a pozostałych grup. Te oczekiwania potwierdza rysun e k8 . 1 1 . W rozdzia|e 9 badamy rezygnacje Zapomocąprzyna|eznoścido grupy będącejwejściemdo dalszych modeli eksploracji danych.
,,,8.6.Literatuta W,,'' Some methods for classification and analysis of multivariate observations, Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability, Vol. 1, s. fBI-297, University of California Press,Berkeley, CA 1967.
t 1 lJ. MacQueen,
lfl Andrew Moore, k-Means and Hierarchical Clustering, Course Notes, ht.tp : / /www'2. cs . cmu. edu/-awm/tutoriaLs t3l The SAS Institute,Cay, NC, www. sas . com.
/ ,f00I.
8.7.Cwiczenia W,,1.'.',,,., 1. Do jakiej grupy dla kodu 90210 chciałbyśna|eieć? 2. Opisz cel metod grupowania. 3. Za|ózmy, że masznastępujące dane (edna zmienna): 0 0 1 3 3 6 7 9 10 10. Użyj metody pojedynczego połączenia, aby zidentyfikować grupy. 4. Załóżmy, ze masznastępujące dane: 0 0 1 3 3 6 7 9 I0 10 (jedna zmtenna).Uzyj metody całkowitego polączenia, aby zidentyfikować grupy. 5. Jaka jest intuicyjna ideaznaczenia centroidu grupy? 6, Załózmy, ze mamy następującedane: abcdefghii (f,0) (r,2) (2,f) (3,f) (f,3) (3,3) (f,4) (3,4) (4,4) (3,5) Zidentyfikuj grupy Za pomocą algorytmu t.średnich dla k : 2. Spróbuj lzyć początkowych środkówgrup jak najbardziej oddalonych od siebie. 7. odwołaj się do ćwiczenia 6. Pokaz,zewspółczynnik zmiennościpomiędzy grupami względem zmiennościwewnątrz grupy maleje zkaidymprzejściem pruez a|gorytm, 8. Jeszcze raz zidentyfikuj grupy dla danych z ćwiczenia 6, tym razem Za pomocą algorytmu t-średnich d|a k : 3. Spróbuj azyć początkowych środków grup jak
qc,Łs|elu9ezc.Ą\ elł\'lspodeu euł\osues]sef .ge1dqpobl9lą,e|ce1ar qgsods:lYlf .zsrd6 .'(dru? op Ic'ouzeleuńzrd po o>11Ą M 3ut1ol nurer8o1srq a[IB^lop 1cgouzaIeZ .91 -nqz1se|łrgqosods ez u'(upe1.3utuo"t '(qe ńdru8op lc9ouzeleuśzłd|śzn 9z'ĄĄoc€Zso
.dru8 zr}bułrełr qcfłroruepuru9.u9>pe1dó>I&s,'fieplereqcb|nsldo ouse| erg1ą .dru8 e1gord |ncerd6 ' 9 I ,NI io?azce1p r zse lrue3erd ałuezbltttzol el9!s4 .E : Z lłclloperyĄlu1fro8p erurgl1tloduloqcrun 'ę,I ł .dru8 zĘtułrełr qc,&vrouepetusłr9>11u1d óąń1s,treplureqct|nsrdo ouse| ergq .dru8 a1gord |ncurdg .71 .qc'(uupłr '(dru8 9e'toąg'fiuep1z śqe,s: ł BIp qcrupeJ'-1u4.{.lo31e|nso1sez,?ut1nl | łxaDuzzod qcńuueruz qcppsfzs.tr [,tzn .11 .eIp^\oZIIBIuJouz .H??:sł qc'(llro1eu ts euep eZ.órs fiułredn -Jolul qceuo-gs eu o8eudl1sop s1nanc qcduup ruoIqZ |Kznyezclm9 qcfcblndó}S€u oCI ouzc'{p1e.rdBluazola{J .0I .zsq9ńu ;o8azce1q .elrcł\oJoJeJdlseleruezh^A,ZoJeJ9lł łBf .uytro81e zezldulalcg|azldul(pzeą z e|epur ńdru8 zrfu.tre.Ą\ Ic'ouuo[uzlnlapÓ1flzlrl^ ruredru8'fupórulod IJ'ouuenuz >1ruu'fuc19ds n az,ze4oą.8 eIueZcLł\9op óls le1o'trpo .6 'elqels po qc,(uoleppo ferzpreqfeu
SieciKohonena się ffi:: 9.1.$iecisamoorganizujqce Sieci Kohonena zostaływprowadzone w 1982 tokllprzez fińskiego badacza Teuvo Kohonena [1]. Chociaż początkowo sieci Kohonena były Stosowanedo analizy obtazów i dźwigków, są niemniej efektywnym mechanizmem do analizy skupień (ang. cluste. ring analysis). Sieci Kohonena są przedstawicielem sieci samoorganizujących się (ang' self-organizing maps (SoMs))' które to tworząspecjalnąklasę sieci neuronowych, omó. wionych w rozdzialeT. Celem sieci samoorganirujących sig jest przekształcenteztozonych, wielowymiarowych sygnatów wejściowychw prostsze, mniej wymiarowe dyskretne odwzorowania |f],Zatemsieci samoorganizljące sig dobrze nadająsię do analizy skupień, gdzie poszukiwane są podstawowe wzorce ukryte w rekordach. Sieci organizlją neurony wyjściowe w grupy neuronów, w których neurony potozone bliżej siebie sąbardziej podobne do siebie niz do innych neuronów, znajdujących sig w większym oddaleniu. Ritter [3] pokazata, że sieci samoorganizujące sig przedstawiają nieliniowe uogólnienie analizy podstawowych składników, czy|i inną technikg redukcji wymiaru. Sieci samoorgańzljące się są oparte na uczeniu z rywalizacją (ang' competitive learning), gdzie neurony wyjściowe rywa|iztlją między sobą, by zostać neuronem (lub węzłem)wygrywającym, jedynym węzłempobudzanym przy konkretnej obserwacji wejściowej.Jak opisuje Haykin [2]: ,,Neurony są wybiórczo przypisywane do różnych wzorców wejściowych(bodźców)lub klas wzorców wejściowychw trakcie procesu uczenia zrywa|izacją.'' Typowa architekturasieci samoorganiĄącej się jest pokazana narysunku 9.1. Warstwa wejściowaznajduje się na dole rysunku, z jednym tylko węzłem wejściowymdla każdegopola. Tak jak w przypadku sieci neuronowych, te neurony wejściowetie przetwarzają sygnałóq tylko przekazują wartościwejściowedo kolejnych neuronów. Podobnie jak w przypadku sieci neuronowych, sieci samoorganizujqce się są jed. nokierunkowe i pełne. Sieć jednokierunkowa nie zavtiera pętIi sptzęzenia zwrotnego ani cykli. Sieć jest pełna, gdy kazdy neuron jest połączony Ze wszystkimi neuronami Z warstwy następnej, chociaz nie jest połączonyz zadnym innym neuronem z tej samej warstwy. Podobnie jak w przypadku sieci neuronowych,każdepo|ączeniepomiędzy wgztami ma przypisaną pewną wagę, która początkowo jest losową |iczbąz ptzedziahl od zera do 1. Dopasowanie tych wag jest istotą mechanizmu uczenia, zarówno w sieciach neuronowych, jak i sieciach samoorganiĄących się. Wartościzmiennych muszą być
-órurod tłroseprDlneŁlcgo18e1potzslaruurleu z '0vrorcsf'(zlr n1ped'(zrd u'$ 16 1ezółr .|ełroseprpnercso18e1po|elcgÓzc|eu,|au|,|zścep IlcłunJ leuep 99ope.t ?zsde1luu9eąs -izn śq.bqosez b|nn1el'l^dl ezrrorcsl't.u, ńuorneu .|ez,furrod ouesrdo ąu1 .u[cuz11un,dg .1 :'(secordeuzc'(1s.{re1ąu rclącśz4b|nze4ś,nórs ect |nzrue8roourusrcer5 .ru'(cbiełrfu3,&lr urouorneu'(ue.ł\ouertu ńpe1łrelzpÓq [eu['Ł,bep 1[cłunJŁrcgoyułr ,,bzsde1|.elJ,. z '(llrorcs|'(llruoJneN .o8ałrorc9 .du) (uoucuĘ ?ullocs .?tlv) -tś^ne1zón o8epza1e1p .(Łłroseprp1ne 9so13e1po [eu[,{zfcep .nmezc?1od ,n9o1 nruopzu>I rurńuesrd'tzrd ure8em z anezel ;[cr1un; Ic9oilB^\Łle1geqo -Je.Ą\eJ 'pgwop ure1odz tuezblnz,tłrorcgfe.tr qcDI 1ezÓnzezldqc,tłrorcs|'t,tł.ł\guoJneu .łsńzsrvr op € u ozpe./Y\oldzol '(qe1ńq88.0 99ou€1Y\.eruqopo4 .fełrorcg|'itrńłr]srełrnuoJneu o8epzeą op ó1śq1eze4azld1ezónua1t,7alurue1od z śuezblnz1azónzezld 69.0 99o}re^{ .88ś0zeJo IJeIs op '{qu1zsełr orupelł\odpo eułrgr bs erzpro4er ruńzs 69.0 9'ouul& 69.0 -łrrerd n (pgqcop) łlaoJul. Ic9ouB.ĄA eue.trozllelulouz a7',pep1t|zld I Qat,^)a?o lrl'g:l:rqśĄe eu śulz91e7'|ełrorcg|ńzu oIlA]SJe.Ąe łr łr91zółrqcr4s'tzsłr op o8ełrolc9|ante1zón nru o8au -za1eufizłdz euenńzu>1ezrd 1ss|u1od9goge.tłzuep (npeq'{zrd) npro4er o8auup e1g .E X tłc€JBIIu t .Ploqol39ezs ,ś11c1zsą -'{.t o ura1erpełu1lselułro1cg|'irr ?ł\1sJe'iY\ 1.6 n4unsńr BN 1e|eryą euul r e]ńzn 9e$oz b8oul zelcoqc .u1tąo1soldetc1e1zsą^\ .lemoJerulfłrnłrpqn1 -oupe| .|ełrolc9[,{łr e1ąńłrz t1en1 arurro; ,iY\uu€Ił\elspezrd 1se[ełrorcg|dzn?.Ą{1sJ€1Y[ 'irrłsrułr op lezrtolcglezvr ńrvr]srełrz otupergodzeqeue1r.(ze4ezrd3s eueq .[e1'fu4nńrYr]sru.tł. t|epurs -od eru órs octlnzrue8rooruuslcels .qcf,łnouoJnou lcels op ol'i!\lsyal.Ą\Icezrd łr łeupel 'uruezcn nsecord r(le,toururopzeru euuenuz eułred.(qu .qcfłrouoJneulcels elp {u|{ą .etmłroz'{rzpw1sqnl eu€.Ą{oZqeIIIJou npoqcop I n)IoI.ĄA urepó18z.ttt.{ĄopJołeJeruuanodru8nąpuddzrd .t órs fect|nzrue3roouus rcers fe1sorder8o1odo1 .I.6 .s,(u pglłJop pgIłJop
I
{eI'!\
łV I eałorcg |s'tt' €ló.lsJ€^\
lllueBeln z etuezcblod
,,/
u'trorcg['łrr ?^qsJB.ł\
dzy danymi wejściowymia wagami zostałbymianowany zwycięzcą, W dalszej części rczdziatu omówimy dokładnie, na przyktadzie, mechanizm działania. f. Wspóldziałanie. Neuron wygrywający staje się zatem środkiemsąsiedztwa pobudzonych neuronów. To naśladujezachowanie neuronów człowieka,które są wrażliwe na wyjściainnych neuronów z ich najblizszego otoczenia. W sieciach samoorganizujących się wszystkie neurony z sąsiedztwa dzidrą się ,,pobudzeniem''lub ,,nagrodą'' zdobytą przeznelron wygrywający,czy|tpodlegająadaptacji.Mimo zewęzły zwarpołączone,dązą do dzielenia wspólnych cech, stwy wyjściowejnie są bezpośrednio z powodu pafametru sąsiedztwa. 3. Adaptacj a.WęzŁy z otoczenianeuronuwygrywającegouczestnicząw adaptacji,czy|i w uczeniu' Wagi tych neuronów są dopasowanetak, aby bardziej zutiększyĆ,wartość funkcji decyzyjnej. Innymi słowy,w ten sposób neurony te będąmiaty wigksze SZanSe na ponowne wygranie rywalrizacjiw przypadku podobnego zbioru wartościpól.
9.2.SieciKohonena ffi,,..:;.:; Sieci Kohonena to sieci samoorganizującesię, które ucząsieć zapomocą algorytmu Kohonena. Załózmy, ze rozważamy zbiór m wartościpól dla n-tego rekordu, który jest wektoremwejściowymXn : Xn:,Xn2,. . . , Xnm,i aktualny zbiór m wag dla danegowęzła wyjściowegoj jest wektorem wa$ u1 : 1IIj,llfj,...,wmj.Zgodnte z algorytmem Kohonena, węz|y z otoczenia neuronu wygrywającego Są dopasowywane za pomocą liniowej kombinacji wektora wejściowegoi obecnego wektora wag 'tl)ii,nowe:
Uij,obecn" *
rl@ii
-
?Iij,ob""n"),
(e.1)
gdzie ą, 0 < ą < 1, jest wspó'łczynnikiem uczenia (ang' learning rate), analogicznym do współczynnika korekcji w przypadku sieci neuronowych. Kohonen [4) przyjs, ze współczynnik uczenia jest funkcją ma|ejącą,zaLeznąod etapów uczenia (przebiegów przez zbiót danych), oraz ze współczynnik 11ma|ejącyliniowo lub geomeĘcznie jest wy starcza1ącydo większościcelów.
AloonvrmKoHoNENA Dla każdego wektora wejściowegox wykonaj: funkcji decy. o Rywalizację' Dla każdego węzła wyjściowego j, oblricz wyn,sć !Ql:i4) : neuron ZnĄóź x,)2. zyjnej' Na przykład dla odległościeuklidesowej' D(u i, x) JD,r,,1 wygrywający J,który minimalizuje D(w i, x) po wszystkich neuronach wyjściowych. o Wspótdziatanie. ZidentyflkĄ wszystkie neurony wyjściowej z otoczeniawęzła J, określone przez rozmiar sąsiedztwa R. Dla tych węz|ów wykonaj następujące dzia|anię dla wszystkich pól rekordu wejściowego: _ Adaptacja. Dopasuj wagi: u-l;;,1o*": wij,obecneł q@,i - Uil,obecne) o Dopasuj, jeś|itrzeba,współczynnik uczenia ą irczmiar sąsiedztwa. C ZatrzymĄ, jeżeli spełnionesą warunki ',stopu''.
.8e.tł. qcrołrs uruełrosudopbrc9o.trqzorufuozpor8eu olueJsoz ,{cb[e.uńr8ńłruorneu oą1,t1 cóIllr ł3} .0 : u ułqzpers?s yerurord 'turgłlłre1snrcers |a1eurł?1 sI61.npJołeJo8epze1 urasrdo u'(uzetqod ru,{udó1sopz .urercsfe,ttur'(tno1o81sei łrgpro1el qce;rlvl J7IqZ :pep1fzr4.z.6.sdu Z X z €ueuoqo' rcersur8o1odo1
tO = zzr
ruepoqcop u^łBIu z ozsftls Aqoso
- zEx
6'0
ruepoqcop lllśznp z ezspo1ur ,{qoso
16 = zvx
urepoqJop tsttlvut z ezspopu dqoso
uepoq'op
ul^znp z ezsJ€]s ^qoso
g'g = ztx
I.0 = 'Ł
7'g = t9x g'g = tzr - tlr 8'0
t
z I
łeI^\
V eł\orcsfe,t u.t\lsJB,!\
.z.6 n)IunSfJ€u [eII?ZP)Iod ezrn1ąe1qcJBo lcals 'turułr'{znuelez.qc1(uPp eznolqz.tr '(dru8 e]lfF{n ńqe ,Z X Z eZJeIauoJ o Pueuoqo) IcaIS ctzn śulecuąc ez 9{DIpo ,KulzgtrezZeIo,e|Ielr.oZ|IEU]JoluZ Znr śłe$ozalgtĄ,(aruoluil pgwop l (a3o) 1aul',lurc1nq -.,ft1e uuro,upz qc'(uep rgtqz '(ururueZ,śalz9łez.pup1,&rd',Qsord,{ct|ndłseufurzułrzog
pPil/tzld'e'6 ,'1.ttt Pu0uotloy lcolsBluezcn 'ntutfuo8ls ggou.,Y\fDleJa órs rłrerdodoc zezld.e1órcpo t8our .uegeĄ Kqr\ feuzce1ąsopb,u?blcńzldaru ?e$oz algtĄ,śłZeMez,KUlZv,t^neZ.elnezlln S€ZJpod 9aIBuIeuur,łłodelv,eznp ozpnqg(qazow .u ełr1zpers?s IBI:uIzoIl h eluezcneĄIuuśZcłgds.ĄĄ u 99ouu^\ruI]tzcod eN 99ou€1Y\łsol euułr'(srd'tzld[cezl1e|crur sezcpod Zeluł\9u .8u.tnero1ąe,ł\qc€Ic'ou"łr qcń.tłrcgu1.tn o uolld o e|ceulnsul eudó1sop az eq'(qc .o.ttoso1euuł\^sldńZ.ld3s l8ełr ruItŁZcod3N ]se[ .ectueJ |ecbzs(zrcno1 łr fueze4od tse! ([9] e11esnug8npełr) €ueuo{1o) IĘ^Jo8IV LLI
't12
Ustawiliśmytówniezwspółczynnikuczenia r:'na0,5.Wreszcie, zakładamy,zewagipoczątkovte zostały zanicja7izowane losowo i są równe: U ) I l: 0 , 9 , ,I1)'t3 : 0,I,
U)Iz:0,9, u 2 1: 0 , 8 , : 1123 0,8, U)I : 0,I,
U ) 2 :f 0 , f , wzą: 0,f.
Dla pierwszego wektora wejściowegox1 : (0, 8;0,8), przeprowadzamynastgpującą sekwencję:ryw alizację, wspótdziałanie otaz adaptację. o Rywalizacja, Ob|iczwny odległość euklidesową pomiędzy wektorem wejściowym a wektorem wag dla kazdego z cztercch neuronów wyjściowych. Neuron I
D ( w 1 ,x ) -
- xti)r :
( 0 , 9- 0 , 8 ) 2+ ( 0 , 8- 0 , 8 ) 2: Q , l ,
Neuron2 D(wz,x) : 1f(0,9* 0,8)2+ (0,2- 0,8)2: 0,61, Neuron3 D(w3, x1) :
( 0 , 1- 0 , 8 ) 2+ ( 0 , 8- 0 , 8 ) 2: 0 , 7 0 ,
Neuron 4 Neuronem wygrywającym dla pierwszego rekordu jest zatem neuron 1' poniewaz minieuklidesową pomiędzy wektorem wejściowym malizuje on funkcję decyzyjną,odległość dla tego rekordu a wektorem wag, po wszystkich węzł'ach. Zalwazmy, dlaczego neuron 1 wygrałrywaIizację dla pierwszego rekordu, (0,8;0,8). Neuron 1 wygrat,ponieważjego wagi (0,9;0,8) są bardziejpodobnedo wartościpól dla tego rekordu niz wagi innych neuronów. Dlatego mozemy się spodziewać, ze nelron I wykaze się podobieństwem do rekordów osób starszych o dużych dochodach. Innymi stowy, możemy oczekiwać, że neuron 1 wykryje grupę (ang. cluster) starszych osób o dużych dochodach. o Wspótdziatanie. W tym prostym przyk|adzie ustawiliśmy promień sąsiedztwa : R 0, tak więc poziom współpracy pomigdzy węzŁarniwyjściowymijest zerowy. Dlatego tez tylko neuron wygrywający' neuron 1, zostanie nagrodzony dopasowaniem wag. (opuszczamy ten krok. przypominając o przyKadzie). o Adaptacja. Dla neuronu wygrywaj4cego- neuronu l' wagi są dopasowywane w następującysposób: uij,nor":
L)ij,obecne* rl(x"i - uij,ob""n")
D|a j : 1 (neuron I), n : 1 (pierwszy rekord) i współczynnika uczenia 7i : 0, 5, dla : l/i1,obecne każdegopola wzór przybierapostać:U)i1,nowe * 0,5(x1;- tl:i1,ob".n.) dla pola wiek: w1',o*e :
LłJ11,obecn" * 0,5(.ł11 _ lltl1,ob""n")
: 0 , 9* 0 , 5 ( 0 , 8- 0 , 9 ): 0 , 8 5 , dla pola dochód:
U)17'nowe:
1'!J21,obecne ł 0,5(xp
_ .t1)21,ob""n")
: 0 , 8 - | 0 , 5 ( 0 , 8- 0 , 8 ) : 0 , 8 . Zwróćmy uwagę na typ dopasowania. Wagi są kierowane w kierunku wartościpól reTo znaczy, w11,W&llpołączeniapomiędzypolem wiek aneuronem kordu wejściowego. wygrywającym, początkowo wynosiła 0, 9, ale zostaładopasowanaw kierunku Znormalizowanej wartościpolawiek w pierwszym rekordzie, czyli 0,8. Poniewaz współczynnik
'rL'o:
- z'o)+ z(z'0- I'0)^- (zx'nm)e : v uoJnaN z(6'o
'VI'O: z ( 6 ' 0 - g ' 0 )+ z Q ' O - I ' 0 ) ^ ( z x ' E m ) A: EuoJnaN z ( 6 ' 0 - g I ' 0 )+ z ( z ' o - 9 8 ' 0 ) A ( t x ' z m ) Q: zuoJnaN
'66'o:
'99'0: z(6'0 g'0)+ z(z'0 gg'0)^ ,(!Ex
- (tr'rm)Q: IuornaN
otcoztlou(y o :ó|cue,t4es ŁcŁlndłs .o3ełto1c9!ałr -€u Zr ,|walzpóq,(6,0 |Z,0) eJoDIa.Ą\ o3elcezĄ u1p.etudó1se1q eiu = .qJepoqJop qc,fieul o qgso qc'Łsre1s '{proąer |erde1ezczsa| avpÓq z uoJneu nruułrosudopnluo}HóIZC .ru'tct|e.u'fu3'it.r trełr.Ę,furqc,(łr eluomeu .ĄĄnpoqcop u1p r8u.t.r99ouełr zlu ezs|elnllo u;'tq npro1sr o8er8n.lp BIp p9wop e1od 99o1.lułrz.ełroruod.ł9p ^\ uue.ĄA'ihosudoplsel npoqoop vlp zzm e3u16 .euruseqe1 s1atn19dzen 8u.tł.euceqo lc'ou€.tł zułreruod.lez'(llrod IIm e?en oc eruełrosedop ś1śq o{lI3So] lzpol4cazldztme?e71..1gdrcgogełrruTuruoplł\ euuruIenDluntsr8ełr nMoUZ
. 9 I . 0: ( z ' oI . 0 ) 9 .ł0 7 , a:
- eMoa'zzm:pgwop elod e1q - zzx)g,o + aaseqo'zzm (eureqo'zzm
' g g ' 0: ( 6 ' 0- g ' 0 ) g ' 0 * 6'0:
(ouceqo'zlm* lzx) s, o + e'j3eqo'zl m - et ou'zlm :>1atuelod e1q '(elu.eqo'zrm
_ a.o.ou,z.m _ !zr)9,O + ełJ'oqo,zlm 9e1sodelplq,|zld r9złr e1od o8epza1 e1p.g,g : ll BIueZ3nąluu'tzc1gdsłrr (pro>1er Frup) Z : u.(7 uorneu) (' : I u1q :qgsods ńctfndółs -eu ^reueł\'tłrosedopbs r?e.t .7 nuolneu .o3ec?|ełrńr3'{łr nuorneue1q.ofcoinpy o .qcBpoqJopqc'{1euro qgso qc'Łsre1s ódru8 1umo1uazeldalelzplqz uoJneu aT',9e,nr>1azco plfuu1 .qcBpotłcopqc'{1uuro qc'{zsrąs q9so '(pro1el ,,ezlelę,, z uoJneu ,(urezour..{zvrotrs a7,gelrlrelzpodsóts '(urezouro3e1e1q.^lguoJneuqc'{uul r8ułr zru npJołeJ o3e119d rc9o1 .(I.0 l3.g) nproąero8el8n.rp -JB.ĄA (e,O i6.6) euqopod l8ełr o8e|z.ułreruod op |e1zpłvqbs .7 ]uorne]u ot 'tcŁfe.łr'fu8fłruorneN e1p ó|cez1e.u'fi 1ur8,&rrz uoJneu ez ,śanzetylnez
- ( z x ' zm ) QzuolnaN zfi' o- z' o )+ z( B' o- 6' 0) t
' lr' o :
z ( r ' o - z ' o )+ z ( 8 ' 0- I ' 0 ) ^ ( z r ' n m ) Qv uoJnaN
'rL'o:
' 6 6 ' 0: z ( I ' O- g ' 0 )+ z ( g ' 0- I ' 0 ) ^ ( z x ' E m ) O E uotnaN
'gl'o: z(r'o- g'o)+ z(g'o- sg'o)
- ( z x ' r m ) e I uolnaN
o ntn4louty :ólcuełr1astctlndfis -3u IIe[u '(ruerzpóq .(I.0 i8.0) : Zr .o3e^\o1c9|e't.r eJoDIe^\ofierfirupe1p .erudó1se51 . qcepoqJop qc.{znpo qgso qc'Łsre1s 'tpro>1er .u1odtrcgo1rełre 9bu?blcśzldb\zpreq ezczse| I l.ł\ouomauezourod erueł\osudopo1 tuceqo 'Łpóruod rc9o13e1po(9.g) Łłto1odlse| eruernosedop.9.0 - h etuezcn b8u.,rł
'.1 : (0,9;0,f) sąnajbliższe Neuronemwygrywającymjestneuron3,ponieważjegowagi wartościpól dla tego rekordu. Stąd możemy oczekiwai, ze neuron 3 będzie reprezentowat grupę młodszych osób o dużych dochodach. o Adaptacja. Dla neuronu wygrywającego' neufonu 3, wagi są dopasowywanew następujący sposób: dla każdego pola wzór przybiera postać il)i3,nowe: ?/i3,ob""'e* 0,5(xsr- ui3.ob""n"). Dla pola wiek: wp,nowe :
tlr13,obecn" + 0, 5(;r:r - tl;lJ,ob""n.)
: 0 , 1. | 0 , 5 ( 0 , -2 0 , 1 ): 0 , 1 5 .
,tlf3,obecne 0,5(xzz - ll3f,ob""o") U)23,nowe: ł
Dla pola dochód:
: 0 , 8* 0 , 5 ( 0 , 9- 0 , 8 ): 0 , 8 5 . X4 : (0,1;0,1)'będziemymieli Wreszcie,d|a czwartegowektorawejściowegO, następującąsekwencję: o Rywalizacja Neuron 1 D ( w 1 , x a ) :
(wią_ xąt)f:ł0s5
2 : D(w2,to): ffi),r)r Neuron
- OJP + (0,8_ O,I)f: 1,03.
: 0,75.
N e u r o n 3 :D ( w 3 , x ) : , r / ( 0 , 1 5 - 0 , 1 ) 2+ ( 0 , 8 5- 0 , 1 ) 2: 0 , 7 5 . N e u r o n4 : D ( w a ,x Ą : J ( O , 1 _ 0 , I ) f + ( O , f - 0 , 1 ) 2: 0 , 1 0 . Neuronem wygrywającymjest neuron 4,poniewazjego wagi (0,1;0,2) mająnajmniejszą odległośćeuklidesową od wartościpó| czwartego rekordu. Możemy dlatego oczekiwać' żenęuron 4będziereplezentowatgrupę młodszychosób o małychdochodach. o Adaptacja' Dla neuronu wygrywającego' neuronu 4, wagi są dopasowywanew na: tui4,obe"n" * stgpującysposób: dla każdego pola wzór przybiera postać ŁUi4,nowe 0,5 (xa; - tUi4,ob""r")i Dla pola wiek: wp,no*e:
Dla pola dochód:
tt)tl,obecn" * 0,5(xa1 - ?/14,ob""n")
: 0 , 1ł 0 , 5 ( 0 , _1 0 , 1 ): 0 , 1 0 .
U)74,nowe: ?1)24,obecn" ł o,5(xąz _ ?l,24,ob."n")
: 0 , f ł 0 , 5 ( 0 ,I _ 0 , f ) : 0 , 1 5 .
Widzimy zatem, ze jeze\i sieć będzie nadal uczona na danych podobnych do tych czterechrekordów pokazanych na rysunku 9.f,to cztery neurony wyjściowebędąreprezentowaćcztery różne grupy. Grupy te są podsumowane w tabeli 9.1. Tabela 9.l. Cztery grupy odkryteprzez siećKohonena
1
neuron I
starsze osoby o dużych dochodach
z
neuron 2
starsze osoby o małych dochodach
J
neuron 3
młodsze osoby o dużych dochodach
A
neuron 4
młodszeosoby o matych dochodach
.(wnp .dtzlĄ
E e|e|zpzol zrrórs elnpluuz qcfuup ruolqz sldo '(1ro193ezcz5,
t^e ,7: u z(uł\gJłńq B^\ppelsŁsgerurord (qc'tuup l9tqz zezld ggtezJd)1pI łIuu,{Zcłgds -Kc OZ qc''{zs'trreldu1q :ocŁfndóJsuueuol^le1sn'!'(q IceISBIueZJn'fu1aruurud euĘuaruolJ sturer8ord ruseąluśtvt z atupo8z bnzeu ouoz4edo 3s oJ9DI .(nąuns.{reu N\.au!ruarua13 eueza1od o1 ]se[ eru) lemorcp|ń.tł 'ilr1srełt ruetrzÓlr.ruru11s'(zsłr ez rue?en' z auozcbtrod Łs |ełrorcglełr.{ł!srełr ś1zÓnery1sńzsłr.g'6 nąuns'fi eu 1e[ a1e11se[tcets erBo1odo1 .XBIU-UIIU
rlcezrleurou tcoruod BZ eue,il\otuJoun'(1e1sozeuzcfuerunu ouuerlurzapllsfzs^t ,Xog z !Ą7ruzotDqnq t(]nulwau'opoltlu(zp)tru 1 ,{1nutrucou ,t1nutrutof JalAĄ,K1nuluł yażp ,D,oluopu!fuL Dqfcry,Kcnld4gdsuSDzl _ :euzctfteurnueuuerurz . .fauosoą3 {łzcod utl1d zerc KnopotouCzp)tru un1d :(I/0)euJuurqauuernz . :euqueuelJ urue.t.rouer?ordorue.t.rlcluper9od 3Z 8ueuoqo) lcels nur]'tro81uop euezBĄ -ezrd 'Ęąsoz au:uer.;uz ecblnd$se5 .alu ze].{zc .(8ntrsn|a[z uruu1s'{ZloĄZ1unouB/izelz) óurrg puerruz ]uolp{śzc,UJelruezu>Is^\ eZ eluzcb4.qce1uerp1 EE;,Eo ó|ceruro;urqc'(cŁsolu qc.,(uuerurz epupls qc'(ueprgrqzeZ.erqos.(urfiuuod'Ł'l4.(/qp/Tcu]/IłJoą 97zÓls . . q3€uo4s uu o8eudó1sop) /lt]oc t6s łtlww// : dllrł eU zal qn1 lrqztrs4 qcńrYro1eure1ul .f, nłelzpzol Z utrułJqc'{uupruoIqZ op Bueuoqo) rcers ru]ńro81e.{urelnso1sezemd$se5
.9.6 )|..:.: BluPmodnl6 oppueuoqo) tcolsalue/nosołsez .uro1eąg,{sep1'inopnq op qc'!,(zn qc'tuuerurz z op (3n7sn n[cou3Kza"t) unqc epd elu '(qe .9e7enn '(unsnur 9śzcbtrn ze1 o3e1u1q.olu qnl furrg 8ntrsnz l1enou?Kzez śzl9l4.rvr9luerp1 r|ce>1g'tsup|ezs1epłr qc',(ucourod^\9łIu7DIs'ĄĄ o1e| dnr8 qcĄ 9(zn 'tul9,(q11ercq).uJnqJqc,(uep nJoIqZelp eu -e.Ą\oru]suoł ?s '(dru8 avpep1śzldruńzszluod16 .dru8 .{łropnqop qc'$dzn 19dz o8eupef o>1e[ uruu.ttoseJeluluze1od1ełr,tzne1uzcepeq 'tqe lsei ou?u.ĄA. '(pel^&.łrgąru7eąs.ł,r o1u[ dnfi 9śznecqc I u1odo8euep e1p |azclgn1ezld śzl1eueleuur qn1erue.t'(pr.tezld,eluent ,t|ulz91uzZeJeL -o{solu'Ą\ o8ezs1ep IueIueZpB'/Y\o ldezld ńuułrosera1ulez 5a| zcepeqaz qc'(c3|nłrorunspodpoleu qc,(uurqnl po]eu qc'(zszruod rueruu1s,(zro1'Qvr z 1gord qcl aluuu^\groderudótsuu € .qclu z o?apze>1e1p eruezpu.trordazld,ślolqze^\osolB^\pBu HqgJd |eu1eur8,fioerue1etzpod1se| uruervrodn-r8 po1eu zbupe1.euozp,terds c.e1sozouurłrodeluezbltytzoleueu'(zrlo .óice1ndodhpcbte1p -oI3JaI,ĄAZpo 'tdru8 e.tro4ruńłrez ,clunedez śqezerc łr9>1ru'{łr qc'{.t'Łs1eJ 9?uąrunńqy
dnl6 rcgoumptd od o!uozpmpld S't' O :,;.,1,, .Bueuoqo) eIueZJn l {cezl1e lr'śl cb,|u lr.śzn.erurolzod urńmome1spoduu 9ers e|evp >1e[.e|nze1odezrqop pey1(zld ue1łeupef .e1svr'r'(zco 9'(s -op Łs elzpep1śzldur,&sordul'! .u,Bueuoqo) 9als zezld e1't.o1po '{dnr8 .elcgrnśzcg 9ltl
warstwa wejściowa
@@@@@@@@@
ltit
poczta głos.
plm niędZynaI
czas Iiczba współpr. wiadom.
dzień filln.
wleczol min.
noc min
międzynm. mn.
Rys.9.3. Topologia sieci Kohonena 3 x 3 do grupowania zbiorudanychchum
grup Rys.9.4. oprogramowanieClementinewykryłosześć
BOK
.'.6 ncslerur o ólceru erse.r1d.ł.t. urfqeur3'.{roeu tuceqo Blu3^\oJoz.Ąrpo n>luns.& eu dru8 .|eru9ezc.trr ...|e,t.loso13 -ro;ul ezlqop ś1zcod* ,ug4ru.uoątńzn eluzglśl*^ lqn8 uer8o1slg .{€upef .qcńuep obIE,Z 'Ą&gpJo>IeJ ruoIqZ oIMpo;1eZ cbtnluazaldel ńur9rTeluuodsłr>1eir1et .|e1n1.eruupez .qcńuup po bcbze1 luuttuzoJ ZeIo śulzpalzp LL oĄIślele|Maz 71 vdru8 -ez nńold blc9opu.,r.r po ezs|eruur z,ecbzcelJz cńq sru b8oui iełro8ord rcgope,t.r|eu.tł.ed .{drug .dru8 qc,{u1g8azczsodJBIIuZoJ ,(upó18z.t.relnze1od ZIruM7I 9.6 1euns'(5 fzcepursod o>11.Ę t|erer.tłez71l79 ..lairroso18ś1zcod*
śdrug.s.6 .sfu
.nue1do3e1qc.{cŁ|e,łr'(zneru z€Jo ..[ełtoso13Ązcod,, ,t.rgłlu -łro4.{zn €u eruFepl erłru;dqc'(uup lglqz ch1alzp.azlututń.łturĄ ,t.reIuoIuZoJZoJeJqop uK1ezoą uleDllespo {uPIIeI^\eIu ul/;o81e 77 śdnfi Z ,ĄĄopJo{eJ łZeIeUzuruu.t.rodn:3 .r8n1sn|etz qc ścb |e1sńzro>1 q9so .ĄĄ9pJołeJ DIIIr{o>1,Ęererłrez 77 ednsg...ułtoso18 e1zcod*nue1d op 'Qrdtts.{zrd elu eJgtł .q9so .{proąalbtenlnez 0z I0I .69 .{dnr8ńp3 sezcpod ...€ z !toso18ulzcod..nu -e1dop Ktrldb1sśzld el9D1.q9so o11'Ęńpro>1elb|vnlnez7I I7,O,{drug .ouosoy?vlnod |euuertuzIJ9ouB,ĄĄrueruerupó18zwnZ dnr8 lcgo1sózc ureurur8o1srq1se['ft9l1 .9.6 >1eu .nsńl zu,to,zog;fdnr8 gord 9'{.qpo .(ure?ourąu1 ;.{dru? e1 9e,r.ro1erfue1urz '(ureur ąu1
dnr0eluemoletdlolul' t'9'6 '(,(dnr8 rvrufzot .r) s?zrlsłr 't.t.ro>1ped'{zr4 .ńuepop .{ 1e1soz(urnzs 'tuzcn1zs aruezpnqod 9r.te1spezrd'(q .erseq.,ito' .!e1up>1u1(7,D.(g.g) eu 99ou€ . ĄĄbtre1s eur dnr8 nrc9ezsqc(1zepzv>1ez ąu|b>1a I .7.6 ,zenne7) .I7,I .I0 >1z|.qc'it.rorcg|'it.r ,|leu ouezeąod ruluuoJneu ru.{1ótcpo z nąuns II óts >1e1 qc'(udó1sopnrcÓt't.t.erzp z )sezs o>11Ą ruer8old,otrezv>1o ,ĄĄguoJneu tru1sńzroą'{łr .0 : ll l, po órs o'tł,orur1 op € . 0 yerurordry1 e.,r.r1zpers?s '(p3 szzcpod .I : y '(ułrgr 1,(q 1uzstaluulzeluezcn1ruuńzc1gds,t.r -'(c 09I qc'(u|elo>1 Órs 1ezs|eruurze:ruezcn e1p.etudfiseN ''.0 : lr po t|zsnb,zcod.o^lolu{
m
Rys.9.6. Podobne grupy sąbliżej siebie
Rys. 9.7. Grupy 12 i22 zawierajątylko należącychdo ,,planu międzynarodowego''
^\gWIdop uremeldtlsrzrd e ruledru8 dzpórurod 1eztl.tnz [ectlnze>1odrcers ser1d16 .6.6 .s.{u
.8.ó .s.{u Kuopoltlutzp)tw utl1d |euuerulzo rfceruro;urueruezołBu z dnr8 ss.rr1,(16
Przypomnijmy sobie, że z powodu sąsiedztwa, grupy położonebliżej siebie powinny byćbardziejpodobne do siebie niztebardztej oddalone. Rozważmy oryginalny wykres, a1etym tazemz uwzględnieniem wartościzmiennej poczta gtosowa,jak na rysunku 9.6. Ten wykres dobrze ilustruje sąsiedztwodwóch grup zawierającychtylko klientów,którzy korzystają Z ,,pocztygtosowej'',co czyni, ie te grupy stająsię bardziej podobne do siebie. Grupa 2f na g6rze po prawej również za,wierakilku takich klientów, ale zadna z grup z dolnego rzędu nie za'wieraklientów, który przystąpili do planu ,,poczty głosowej''. Nastgpnie przeanalizujmy rysunek 9 ,7, który jest histogramem częstościgrup, z nałozenieminformacji o zmiennej plan międzynarodowy' Grupy If i ff zawterająrekordy osób wtedy i tylko wtedy, gdy przystąpiłyone do ,,planu międzynarodowego'',podczas gdy inne grupy zawierają rekordy osób, które nie przystąpiły do tego planu. W tym przypadku algorytm grupujący znallazłinny,,doskonńy,, podział'wzdłllz tego wymiaru, dzie|ąc zbiór danych na osoby, które przystąpiły i które nie przystąpiły do ,,planu międzynarodowego''. Widzimy, ze grupa 12 reprezenil1e szczególny podzbiór klientów - tych |
Ćzu. ] wspolpr. 00 02 10 12 f0 22
6) \)9
0,000 )o ))o
100,72f 0,000 r01,f40 10'1,t20 31,2f9 0,000 140,948 103,017 0,5f9
89,256 78,695 79,f08 88,781 67,969 87,'713
f00,249 fUf ,366 20f,060 f08,3r9 r98,451 20f,42r
f09,246 20r,483 r99,434 203,990 144 t)?
r93,789
r0,203 10,153 10,379 r0,919 10, 13 10.528
r,467 1 ś?1
1,627 r,494 1,694 1 454,
852 830 5f0 óJ
808 240
W ogólnościnie ma gwarancji, żewszystkie grupy da sig łatwozinterpretowaĆ,Analityk danych powinien połączyćsiły z ekspertemz danej dziedziny, aby przedyskutować, czy grupy odkryte przez sieć Kohonena lub inne metody są istotne i przydatne. Tutaj jednak wigkszośćgrup wygląda na jednoznaczne I samowyjaśniającesię. By uzupełnić profile grup,rozważmy średniewartościzmiennych, pokazane w tabeJli9.f.
,lullgbzczsndo nuo1d tctuuo>1łĘn) (o3auopo"lou(zp)lru zz Zerc (tcuaqy luouĘdn) 71 druezourm1uns'{r u5i dnl? z Icuepl ez !se[euqopodopłrzrd|qplr"q|eue7',gśzceqoz .61.6 quns'ft eu >1e[ qer ser1ńzvrcŁ[n1s -'furo1'tłr .qcedru8 qc(uzgl rvrrlcuu8ńzer {e]espo geułrgrod'(ulezo111.uJnqJ leuuerurz l|ce4g'(seq eII]vpeZop .{dru8 ol 9e.tosolsuz '(urs'(ql1enĄJ eZ .łBupe! ,ślllzgtre7 .{ceu3Kzel rcóqc 11euzoecb|ezpelpzaIuB.ĄAoqcBZ 2ułr,'Łe>1s.tt ,(q .euułroąg,Ęueptz?Elsoz ?8otu łr91uap1.{dnr? .ncyoą ,iY\..zI Kdnfi |azszt'.tnodz lc -uept ł3|łB1 ..{urrgu1p?1ur1sŁzs1ót.t|uu '(qo1'(qenglepo eu1e|cue1od qcńr9p1 lvrglueq4 qc'fi eicuąg'.fiuept1se|tt3e1e4stuu1 .>1s.{z Łzsou'(zld Kzlgln.ł\g1uelPlqcĄ oą1'! 9erq't.ł.r euloul ,Kzeqz ,tł.gluolplqcq1s'(zsłr op e.i!\ouupleJDInJp9e1'tsńłto'/Y\osBIu 1S€IIuBZpePI .,{zrdu5 .^\91ezpnq qc.(cŁ|e1eur ezJa fu\n1erzpoder8e]urlscułrore8nsŁ8our o.tropetr4(zl1 . elnułelzpct|utłrqzourn,śzcepeq IuJg €Ip eu1s'{zro1 b3oul dru8 e1gorderue5 l 9'tq .IJ9ou€'ĄĄ .tt]nunu €ru€]S.{z"ro1ń't.rIc9o]J31v\ elupeJ' btnutizld eldn:8 !e1łr euuelurz e1e1sozod.'(cou o3aznp t|u8uulń.,rn |ezsleruurleuzcgldg.€[I€ł\osaJolulez elu Ic IcueTIłaz,cezcvuzo e7' -olu oc .ezsleruurfeu1se[e1ue1p1 z r8n1sqoIueJnIqz yezcb1odBqzcYl...|emosotr3śłzcod* qc(cb|e1s(zloł qgso BąIpI Z€Jo ...o3oł\opoleufzpórurnuu1d..op ńpdt1s'{zrd er9q .'(q -oso edru8 EłaIne,L.o8auopoloutzpÓ1tu nun1d Kctuunlil?n :77 odnlg o elnrufeqo .'(cou rn ezsleruur|eurc9ou[e1oąłr er8rup ]nuruIerue1s.{zroą.{łr t urerozcerłr.urup n8trc rvrlnurru erue1s'{zroą zero .qc.{łroporeu'Łpórurqculuazcb1od.ł.l, -'{łr eluperg ezsfetuur|eue|nzeą,t.t.r edru8 e1 .eluolP[ r8n1sqoIueJnIq z yazcb1odbqzcl1 z z elmzblnod oc .u1uo>1 Łzs1ót.ł.r|uu uruupursod luesezc lurupeJ' urńzsąór.t.r|eu 9śqezolll ..o[e.t.toso13 ,buslgz K1zcod*ZIuu...o8o^topoJ |e7np|eu>1eupe|Łs97ńdru8 |e4npzIcueIpI .Dułuł runfu4o.o1oruru1ofo1:g7 odnłg o -xuśzpÓrun nue1d..z ue ścbte1s'(zroąel51 .ódru8 ó1 .>1stfu qct|cbzsou'tzrd 'ĄAgłue1pl cułto1uezerdeJ euo ezouJ Zellreluod 9ełrołrresqo n.tłpqc.{1e1sozod u1pncslerur eu ts t qceuo8e1 orufnzc euurrnodetu4g 'ruo3e1u>1 urr8rup -u>I .ĄA erue1s,(zroąf.Ą\ alupeJs ezsąól.t.l|uu zetu.ł\gJ IcuaIpI m.t.loc€ Zs IJ n1ńp bleul JnuT{II ...o3ełtoporeutzpÓrunnuu1d..op rldbs'Łrd t łB|...[ełtoso18Ązcod nu31d..op ou./Y\gJEZ l&l91>1łrglue41 e|nu|eqo udru3 uzsfeluurluu eL.nuaqy tnonĘd1'1 :71 odn'tg o .Ic9ouuł\elupeJ9Ł|nru|'Łld euue[uz e1u1sozod[e1 r8ntrsqoIIIoJnIqzyazcbtrodb,qzcq?ruper9tzs1ólłr|uu rc9ou[e1oą.ut8n.rp erdru8.u .e1uer1ą nuu1d..op Tu€ ...[ełtoso;8Ązcod nue1d..op Iue qrdĘs'Łrd €zo4 ...o3e.ĄĄoporeu,'Łpórur eru,{dn.r8 |auzctl oTupeJ9|e1op ścbzeleuIcueID'I ,lJuart>l1ufinazl4 :g7 odnlg o .IJ'oue^/Y\ olupeJ9 h|nu|śzld erdru8 !e1łr euuerurz ołe$ozod...o3erh -oporeu'{zpónunue1d..op śtrldb1sśzrd eru erugezcoupelsr9p1'(qoso zuro .[ełroso18elczc -od ÓqzcqŁruperg bznp eur o3e1e1p...[ełtoso18Ktzcod nue1d..op '!tdt1s łr lc9oruopel1Y\ .śzlderyl1.'{qosourerrvruzedns?evnpeL.[amosoą3KLzcodKcluuo1lęn:7godnlg o. 'l\30U
ł\ I yelzp 'Ą\]nunu etueisńzro4,(,tło8etupergo8ezs1órłrleupJo IoJ III,tłou€]SnIc IcuoIIx .€tuo{ eruupersod luesezc lulupaJ' ur'fus1g"q|euerm.r1d1błreru Z olupeJ' .'{rurg łr9] ...o3e.łopomuśzpólus -uerp1 qcńłrou '(dru8 ieznp Z rcuelpl nu€1d.. z tu€ ?|nluezerder 96 .Kclutsazcnrumft4o ...[e'toso18 Klzcod,, z rue ścb,te1s'furo1er1q lMoN :00 ndnlg o
du0 el;1016'Z'9'6
Rys. 9.10. Procent rezygnacji w grupach
jak wynika z ichwyzszego ogólnego odsetka rezygnaciil Grupa 0f (użytkownicypoczĘ gtosowej) manajnizszy odsetekrezygnacji. Firma powinna poważniejprzyjrzeć się ,,planowi migdzynarodowemu,', LbY przekonaćsię, dlaczego klienci nie wydają si9 zadowoleni. Firma powinna rówńeż zachęcićwiększą liczbę klientów, by przystąpili do ,,planu poczty głosowej'',w celu zniechęcenia ich do zmiany flrmy. Te wyniki i rekomendacje odzwiercied|ają nasze odkrycia z rozdziatu 3, gdzie wstępnie sprawdziliśmy zvtiązek pomigdzy rezygnacjami a wartościamiróznych póI. Zauwazmy również, ze grupy If i1f sągrupami sąsiadującymi,mimo ze zmienna rezygnacja (churn) nie byta brana pod uwagę podczas tworzenia grup, a klienci, którzy chcązrezygnowaó, są bardziej podobni do siebie niż do klientów, którzy nie chcą zrezygnować zkorzystania z usługfirmy.
p]zyna|eżności dogrupyjakoweiścia funkcii W,;..9.6.Użycie danych eksploracii domodeli Funkcja przynależnoścido grupy moze zostaćużytado wzbogacenia zbioru danych i poprawienia efektywnościmodelu. Rzeczywiście,gdy rośnierozmiar zbioru danych, aLiczba pól się zwiększa, grupowanie staje się popularną metodąredukcji wymiaru. Pokażemy,w jaki sposób funkcja przyna|eznoścido grupy mozebyć użytajako wejściedo tworzenia dogłębnychmodeli eksploracji danych zllzyciemzbioru danych churn i grup odkrytych powyżej.Kazdy rekord materazprzypisaną wartośćfunkcji ptzyna|eznoścido BruPY,obliczoną zapomocąsieci Kohonena' Wzbogacamy nasz zblór danych, dodając pole przynaleznoścido grupy jako pole wejścioweużyte do klasyfikacji rezygnacji. Uruchomiliśmy model dtzewa decyzyjnego CART, aby sklasyfikował klientów na tych, co zrezygnttjąhń teznie zrezygnują.Wynikowe drzewo decyzyjne jest pokaza. ne na rysunku9.11.
'966I VI I'e?puque3 'I98-9t8 .s .(qIqJV .V.1711 'sserd .peJ) ,sl1.łou1a1g IIW IDnaN pun t:oaq1 uln.tg 'sdelu ueuoqoy :sduru-eJn1eeJSutzulr-fl:r:-g1eg 're11rye31ag lo >looqpuopaqJ ^ [g] '066I fN te'rry elppug red -dn .IIeH ecl]ueJd ,uotqDpunolansuaqnlduloJ V :wpowaN IDJnaN up1ńeg uotul5 [7] '(ZS0t) 69-69' gp'su1au.taq(3pctSo1otg lceJJoc '(1pcr8o1odolJo uorlurruogpezlue8ro-Jlas 'ueuoqo;1 o'renl [1] 'sdeur ernleeJ
PlnlPt0ll'l'l'6 :::l:r: 'qc'tuup lrtgr -olqzqcśznpe1pqc,tu|'(cufcosep8er uruułr't.rr1po tueru€pez órs '(ureru|ez erudfise5 .iceu? śzel łe1espo'Łs |eruur|euu1eruredru8 o1eJ91ł ,fauosoą3Kxzcodug>1tuuo1lĘn ,fceu?Kzelop afn1uezerder rcóqc ałElzplr'IJazrd edru8 79 e? .erqos ,(ur|ruuroddzld'ob8,L61se[eułrgr a|nufl,|zeu e|u e7,.ozrr1sqerqopodop.tr'erd 76 ńdru8 op trcgouzepu(zldt urup n8blc rrrlnurtu ruerue1s'{zro1'{.tr urfznp z t^glueIP|9t n1pud'tzrd,ryrzułreruod1fcea?śzalełelzptlcezrd 76 '(dru8 op 9'ouzeleu'tzrd ruorqzpod o3e1 elqórqo łr e1u .(z|cuu?śzal)DpMDJd - anJJ 1se[r|cag'(se14 qńr1 .erup n8trc łr o8eznp elp ev,t|anzenne7.dru3 ,Ęzser po tuu1erzppo 79bdru? z ]nuTlu3III3]S'(zro>1,&tł ńdru8 op Ic'ouzel€u.&rd ruepó18zzvr e|ndó1seu1ulzpodrc9ou[e1o1lel8n,ryłr o1 .ąe1qeze1 .;L,O .(erup n8?rc ł\ rc9o1.lum|eue.trozr1eur ]nunu qcńue1s'{zro>1'fur 4w ezsąórłr 1se|'(zc -louz) t]nutw ułDp reuuenuzlc'ou€rr\ 8qpe.tr e|ndó1seu 1ulzpodarll,ezrpnluozJo{ ł\ '(dnr8 op 9gouza1eulzld o qcduoce8oqz.tr qc,{uup ulp J6YJ
au|śzfcap o^\ezJpełro4ruń16.II.6 .sfu
"-.1 {Era,n1nn* pFńąEld{ry lgp'ąiejd:ełuEu!{'lJ0fi l g l.g.aq ńłnuluJ$I3a!,|,Ą .' g !s'* xF lłttt;|ur;9zralM {!ag.*:ls} rsł*l # [1słBj:auBu|łljfrfl: {**l} {tpłea*d:E}uaŁł!lJJ*& ] {-Łr" ugr'ual' "&1*"&a*}ułtuaul5as H ..,.; {gza.*lgt} r$łgJ 4: IugłBJ:Biu€ i l'tilfrfil [',rE,"]u}l'gŁł,tfi**
:*r*€ u |iljrs; !g',fl E.ńłn:.l!u: {|eri tep&ĄeJd ua$t '.ffi {gvl'n]mtl} :słęJ {i} [z*ł€ J :B}u*Łlłt}Jfig ] /$}.s ę Ąnu|gl!ę!ro .'; {er*'n 1r*l} Ep'uEJd{x {ępiiiind.fr'$Jeu{ł#$fi l łFF-B=>A}nu|ł.:.l 9Elzfi .
:eiueu{u:cc *Ęlsfi tacx3 "gp*&Hld ] &gg,0
*{:i
, I
, : :
ttż&,il: 'rr r} zsłBJ* lz$,l*J:El*''*e.ł|l:*efi l *[g.0*xĄnłll.l: !.frEfi-.': *łfrłnłilc,lgł;ńep*lu upla ''& ; {tnar} [rgłrj:ąupu|ł$fifl J l *8{u*] aqf3|} t {lza r} [sgłsl;BłileŁ.'lujefr ] s*['0=*Hs&r e&!ŁtJz& {rr t *} {rgłej:*łł**u|tl}gtr} r$/'il *} $łnulu,l ugtufr-Łł
[4] Teuvo Kohonen, Self-Organization and Associative Memory, wyd. 3, Springer-Verlag, Berlin 1989. [5] Laurene Fausett, Fundamentals of Neural Networks, Prentice Hall, Upper Saddle River, NJ 1994.
9.8.Ćwiczenia ffi:::;, 1. opisz podobieństwa pomiędzy sieciami Kohonena a sieciami neuronowymi z rozdziaŁl 7 . opisz tez róŻnice. f, opisz trzy chnakterystyczne procesy wykonywane przez sieci samoorganinĄące się, takie jak sieci Kohonena' Czym się różni sieć Kohonena od innych modeli sieci samoorganizujących się? IJzywając wag i odległości,wyjaśnlj,d|aczego dany neuron wyjściowy wygrywa 3. rywalizację dla danego rekordu wejściowego? 4, Jakjbędzie efekt zwiększania wartościR dla wigkszych warstw wyjściowych? 5. opisz, co by się działo,gdyby współczynnik uczenia ą nie ma|ał? do grupy do dogłębnegomo6. Ten rozdziatpokazuje, jak moznauzyć,przynależności delowania. Czy moznarównież do tego celu użyćprzynaleznoścido grupy ottzymanej przez grupowanie hierarchiczne i metodę t.średnich? Ćwiczenia praktyczne Do następujących ćwiczeń' vy1zbioru danych adult dostępnegona stronach internetowych książki. 7. Zastostlj algorytm grupowania Kohonena do zbioru danych, u:waŻĄąc,aby nie załączyć,po|aincome(dochód).Użyj nie zaduzej sieci, takiejjak 3 x 3. 8. Zbuduj wykres rozrz:utv (ze wzbldzenlem x ly) przynaLeznoścido grupy z na|ozeniem pola income. Przeanalizttj swoje odkrycia. 9. Zbńuj histogram przynaleznoścido grupy Z nałożeniempola income. Porównaj z wykresem rozrnltn. 10' Zbuduj histogram przynaleznoścido grupy Z nałożeniempo|amarital status (stan cyw ilny ) . P rzeanalizaj swoj e odkrycia. II. Jeze|itwoje oprogramowanieumożliwia to, stwórz wykres sieci dla pól income imarital status i dla innych zmiennych jakościowych.Dostrój sieć tak, aby dobrze przekazywałtainformację. 12. Sprawdźnllmerycznepodsumowaniedlagrup.Naprzykładzróbpodsumowaniedotyczące średnichwartościdla grup. 13. lJzywając powyższych informacji oraz wyszystkich infomacji, z którymi mozesz sobie poradzić,zbuduj szczegółowyi informacyjnyprofil grup, uzupełnionynazwami. Ia' UŻyj przynależnoścido grup jako dalszych wejśćdo modelu drzewa decyzyjnego do grupy w zadanll CART, by sklasyfikować income' Jakwazna jestprzynależność klasyfikacji dochodu? 15. Uzyj przyna|eznoścido grup jako dalszych wejśćdo modelu drzewa decyzyjnego C45, by sklasyfikować income. Jak ważnajest przynaleznośćdo grupy w zadaniu klasyfikacji dochodu? Porównaj z modelem CART.
.po8^A\ ńtrnan az ,pe1nśzlduu Kulz91e7 .śutavpeuzeqaIcIł\o{łBcóls elepńłr e>IolnZJ 'tzsłrrerd uu ure1qordUJaleZ.(.pt1iqe1qc e|ndq eołe1x e|ndn4 iulo>1dode|ndną io.tr -td efndną) łr91nq'fi1eqc'(u:eurq ec?lsń1 cńq ?8oul ez r o8e.uodep1so1'Łso1 Bz|IBuE tsei qc'(u['(cu[cosetrn8erurerue.trosoJsezurfłrod& ez .'{ru|rupó13złrn.r,& . 4 npÓzl EqZ)\ ol ,(łD1_ Kqcn1alda[ndry .du) qpud'tzrd 1se[qc,(u|,(cu|cosup8er qc'{,t.rr11zoul eu.tł'$.{zodo>11Ą'(ureruge!'{łr1 qc'tu:uurq zvrg1nq.{łeop órs Kulezctuel?o .tł91nq't4e7 .etu1er4uoy.'ngłnqdłe ś,qzct1 Iue1soJZ^\ izelft\ eZ ]se| 1eze[ ozclupep1fłr eru'oJ qcńu|ńc -ulcose qc't.,rulzoaluqZcI-I:I3so.ĄAoJellu'ilvr ołt1syepezrd qcp{B1 1n3er 1se[.qceru1.fuo81€ śzld 9enodó1s,{'t ezoru ńr91ą .ueura1qord u'(ct|ucóqceru7 1ł1cśuep ruoIqZ o?alnp z qc.{u|'{ceicosu1n3er etuełr'(rqpo op 3u,,!\osolsezśun7oul zvr9ru1tro8p|ezpor gu1 'Auzooqn DIeJa śuzcaldzeqeruu1ołr.,ilr 'fuYrouqc'ftgq łr .zvr9ąped'{zrdn1uecord arue19er1g o 4e1 'urezet euu.rnodrul eru ts .erceryetuladns ńp8ru er9p1.qc'(] ,wezelauułrodną tS eJglł . n KzcazlaIUaVeIBuZ I .|euzcruoge1e] Icels .ĄĄ rcgo>1e[ órs o uruezsro8od eruułr.,(plłrezr4 .b|elńzc oznp elues er9p1 .qc'! śqzct1op ,b|e1|zceczpoJ ul'{rgpl ,lcllzp śqzcqn>lunso]seluepeqz . .8ntrsnnpJupue1suruezsąórłrzópe;o eu qerzper'r.lodpo eru.u.&ńz .od śzlglą.,{ulg leurvred|ałro>1rguroł iluoJela} nuu1dnrglueuoqe'(qzc11er:uapa,qz. :t|nurfeqoqceluep?q I elsouzlq łr urue.trńn1povepvz śpe1ąfzlą trn8er .ob9Z: obOZ: ff alcgouJnI ffi ulelcredsł\eZ..or[Id e|ndnr1o1 .'(qcn1erde|ndn1 I1evar, :ec?[ndó1seu'{qetrfqeul'{celcosue1n8sr ane1u7'onld o11dn169 .'(qcn1eldpdq 'tzrgq .00z qc'q z u ńqcn1erdo11dn4697 '(cou ^\łaue,t.rzc^\ Kdn4ezqc,{chqor ^\g}uelpl000I Z ez,cś,lnpoezoru lełJzluredns '{ueppe1ąńzrdu5 .'tp8 ,>pupazldodl1ezef, .eJ qnl lcsoupuplop t u;c.ruds'łó. t.reru Z luIeZeI lJ'ouJn ,,4tud)1souo1 .rrue1nq'fi1e |acór.tł. qnl €ulo1vrp 'tzpórulod rlcu1er .ce1sodb|enlqfizld auf,(rufoosu Ąn8eg uIIrcIgeDIo o8ełrorcgopop trn8erqcĄńqpoelu ble4nzs lzceuz o1.rrue1nqd4eur'{l śzpórw -od t1vzbtlrlrod qc,tfr4poeru t|e>1nzs,(stst1ouop4suq płfilu.8uu) o8e.todep1se>1'{zso>1 ezIIeUeo4e[ zerułrgl eueuz.^lsuelqopod Kząetn '(po1e6 ...Łqos az euezbltytodts.. ar -9DI .qcec qn1 .t91nq'ft1etualu?p?q ]f'er (stsĘoun tąu#o .Buu) ,u1sya;qopod BzlIBuv
't.0 oEemodep|s Ełńzsoł I tltlsuglqopod PzIlPuV t ....
eu!ńcelcose ĄnOeg
.". ! '
l*'
.-r\."ł*{:aą-{ągn{aĄ'
..*'*ą-.
{sa*tt' tq
W'E Sketch @ 2004 by Chantal Larose
- 6,4 . IO3I możny sklep na tylko 100 różnych artykułów. Zatemjest 100 . 299 liwych reguł asocjacyjnych, które oczekują na twój nieustraszony algorytm ptzeszlkujący. Algorytm A priori do odkrywania reguł asocjacyjnych korzysta jednak ze struktury reguł, aby zredukować problem poszukiwań do mniejszego rozmiaru. Ale zanim omówimy algorytmA prioi,rozwaŻmy podstawowe idee i notację do odkrywania reguł asocjacyjnych. Zaczniemy od omówienia prostego przykładu. Żułó,*y, ze miejscowy rolnik ma przydrożne stoisko z warzywami i sprzedaje następująceartykuły: {szparagi, fasola, brokuły, kukurydza, zie|ona papryka, kabaczki, pómidory}. Oznaczmy tęn zbiórjako 1. Klienci jeden za drugin, Ąezdzają na bok drogi, biorą koszyk i kupują różne kombinacje z tych artykutów, podzbiory zbioru I . (Do naszych celów nie obserwujemy, ile poszczególnych warzyw zosta.tokupione, tylko czy dany artykut został kupiony, czy tez nie,) Załózmy, ze tabe|a 10'1 jest spisem transakcji dokonanych podczas jednego popołudniana tym przydroznym straganie wafzywnym.
ua]uocoJd 1se| g e y ieu|'(culcose't1n8er |euup e1p s (łloddns .8ue) a1c.ruds'11 .n1osoto1 DIzJDqmlt o1osntqazat pep1śzlduu >1e| e14e1.,QnBereu1evYr'tr1 uzcnp1ń,tłulcrugep e1.euzcbtrzo.leruure|zz.t bs g T V zerc 1 IuBJoIqZpod ttuńłrtcgu1.t.r bs g Iy elzpa ,(g ę V) g 01 .v ryaza[9e1sodurarq'tzrd uu[,{c 4udó;sBu ąppezJdod .(r8urudzs.du) g łr91q'$re lglqz śaulr (qzceqe1 I €Ios€J .du) y .ufcosu u1n8er'{pet^11 .t91ną'$;u ry.rąz śuep'(ureuraz ,śanz91e7.1z lrrgpąśuer9rqz e|n1uezeldelą z 1u|c -łBsueł epvaĄalzp?,1.g11eqą ^\ru'(uorłre1spezrd r|c>1usueł IueJoIqZelzpÓq o qcelN
y ggomlcgPrn Itoltd !
eveznpzolsÓzc .9$ouIn .o!3Jedsfll .z.0| |..::.: .€.0I łeqe] ,t orruza1od4e[.qc'{uep eIcBIuJoJur,ilrozrelce{u ^\euol1Ku1spezrd .rrue1odrul,(ueutq B{uoIeI^\ Z 1se[e1elłr 9'{qt?ou I.oI {eqą Z eueą.zrr91ru1'tue {B] ąe| .ó|cąesuer1tuqoso eln]uezerderpJołeJ śp?eĄqc,tuup oIJBIuJoJ rud'l.loz.re1curu 16 .z.0I leqą ^\ouez?ł -od ąe!.qc'(uep aIcuIIIJoJtuńu|'(c4usue4ł\ euoT^\?1spezrd 9ńqb?oan I.0I łaq€1 z eulep pep1śzlde51.;ru1ń1.le ,Łcu'(pe|od o11.QererłrezpJołoJ śp1uĄB.lJ ouu(WDfu1oil (q1) )tc łlusuDJt o?acbtn>1$łuapte1od.19d qcgznpo11,Ęe8eru'(.t qeduup l€ruJoJ '(u['(cqusuu.q .qcńuep u€uuoJ o8ełrozrercuulqnl qcńuep ĘsuIJoJ o8eul'{c1usuerl?coruod ez :o?an -odep1se4ńzsoą ńzl1eueop qc'(uup nd't o8el elu€1Y\oJuezerderńpo1eureun913 erłrp t5
.l.l.0L oOomodeps ńzl;eue Płńzsoł opqcńuep e[ce1uozoldou ,!n1orq'e1ose;troprurod'u1fududeuolerz'uzp.{.rn1n1 elose;'r8eredzs'ezp'{rru1n1'Dlzc?qe{ .r8erudzs wleqeĄ.u1ose; plzc?geł.u1ose;.ńpąorq.e>1frdud euo1ez 'e1ose; uzp,&ru1ru1 e1ose;.r8uredzs.DIzcBquł eą'fidedeuo1erz.,&oprurod.f1n>1orq 'fioprurod ezp.,imr1ru1 ,ftoprurod'e1osv1't8erradzs'pIZc?qDI ńtrqorq.rEeredzs.e1osu; e1ose;.fuoprurod.uzp, mąru1.e4frdeduuoleTz 'uzp(m>1n1 plzceqel 'e1ose;',fuoprurod ezpfrqn1 .DIzcBquł.l?e ndzs uzp,&nąn1.a1,{.rded euo1erzńp1orq
VI TI 7,1 II OI 6 8 L 9
n ę
7, I
ur.(ułr'(z.rełl'erue8er1s anśuzolpśzld€u au?uołop e|c1esuu.1 .I.gt BIaq€I
Tabela 10.2. Transakcyjny format danych dla przydrożnego straganu warzyw. nego .t.lT.r&i
r.:.:
1
brokuły
I
zielona papryka
I
kukurydza
f
szparagi
f
kabaczki
2
kukurydza
3
kukurydza
3
pomidory
Tabela 1.0.3.Macierzowy format danych dlaprzydroznego straganu wa"rzywnego Pomidory
1 2 3 4 5 6 1 8 o 10 11 t2 13 I4
0 1 0 0 I 1 0 0 1 0 0 I I 0
0 0 1 I 1 1 0 0 1 1 I 1 1 I
I
1
0 0 0
1 1 1 0 0 I 0 0 I 0 0 1 1
I 0 0 1 0 0 1 0 0 1
1 0 0 1 0 0 0 1 0 0 1 0 0 1
0 1 I 0 0 I 0 0 1 0 1 1 I 0
0 0 1 1 0 1 I 1 0 0 0 0 0 1
transakcjiw D, które ZawrcrająA i B.To znaczy
wsparcie: P(A n B) :
Łiczba transakcji zawleraiącychA i B catkowita hczba transakcii
Ufność(ang. confidence) c dla danej regułyasocjacyjnej A + B jest miarą dokładności reguły' określonąjako- procent transakcji zawterającychA, które równieŻ zavtierają B,
,v .e7sóz} elzplq eT.u ĘI]evIeIe o8aulo1r\op?Ip o1 tlsózc ]sef eru Z yezrcpz l9lqz \azeI Y n Z
raorady g$ofvuc$v?nll .lJolJd y nul/fio8le BIp y€lY\Dlnzsod yeZłSeZld ocbzceuz e|nąnper 99o1(IJ9€ł1ń uucourod e7.f1sózc alzpÓqev (Z ścb,|enlnezvazrcpz lgIqz) Z JgryzpDu uepez .lcso1s -ln(zcazl7y1 .e1sózc etzplq olu Y n 7 o1 ,Ąs6zc 1se|eru Z W7n|.1sa| o1 .tuńlsózc ruo: -olqz elzpóqueł Ig,qZ ez .e|npołrods oru nJorqz op y n1m1'tpeo8eu1ołropeIIIBpopo] Z ,śtslzc uoudy97oA{IJ9BłM.IIB'/KDInZS ]se|eruZ vezftpz rytqz śuept1aza|az.ezp.let,t1s -od yazqsezld 9'Łs|aruurz śqe,uotld Y IJ'o^\Ic9"s,nz e1sl|zlo>1yotJdy tu/ro81y
'rcgouJnnruorzod r ercredsrvroB -eupr-rrrulru{eunre,t.\tfelu1eds er9D1.eufdce|cosudp8er z]91(7nl}ezmpzqcĄsÓzc errYrulspode51 .7 . , . Q ( tcgo1sÓzc o yezftpz śnlqz vpteuz śzceuz 01 :yezmpz '{.rorgze1sózc eq1s'{zsrrr vplzvz I :ru.{.tn.o>1o.r1nłrp ueseco.ld 1se|qc'{u|{cufcose p8er etuełr,{o1pg
?nCtUilNVm Uv00 HCANTACVfCoSV .łg o>|e|śul(zceuzo qcBtueuelo 1 o yezlepz.ĄĄgJoIqZqc't1sózcl9lq7 .elsÓzc bs ,Kzvl śsetzc|e1uulfeuoc b|nd -ółs'fuvr ellglĄ,veznpz kolqz ulelez .t : Q dul9pt9eqo ez ,pep1śzldea klz9ry7 .Q -a btcgo1sózcz l1(zc ,śzel6qzcl1tu1eurrururtułlad |eruurleu.'Łrdefndólsńłr śsglą,uaznpz rlcąusuer1bqzcq5at yazlepz Iglqz 01,{5Ózc rg1qz .yezJepz l9lqz Ńmp qc'(ct|urer.,r.rez ruolqz 99ołsózJ .1 o?aun,|zruyrnue8er]sruoIqZ ez epzuĄ,uszlepz IueJoIqZur'(zvro1ueru ,yezlepz .eąfrded -e1a-g ur'fuYro1ueure1e-7 BuoIeIz t1nłolq} u IuaJoIqZ lse| {uzp'ftnąną .1 .e1ose;} pep1śzld ^\ BN ulśyenez IueJoIqZ 1se[yaz.rupz t9!qz 1se| {zceqą .ur'(uzcń1sfuoJJe1 Iuelue?ol?ez z qc Ńsezblnod qn1qcńzuy1nzso r|c>1esueĘ oł€ru oł\ołunsols ]se[ z.ełreruod,obI op ercredsłrurolzod .'(uorls 4Ą11euu 9tzcv;r.łfio e7oanauzcĄs'ftorre] eluezol?uz qnl BłuSnZSo'tc3|ezrr',fur1'(łr .obyz uu urcreds.uurorzod ńupunurur 9IIgeDIoozoru lel8nrp Z.obOL Bu lc9oup€łłop B ,Ulezeleuernepezrdsts ndeps az K1nąfircer9D1.uerc,{rąpo'(uułroselelulvz1ń1l1zutpup -fzrd e51.eulululuilu lo'ou€ł\ euol'eDlo eu.ted Zru eu^\gJqn1ezs1óuvrbs ercruds.tn, r 99ou -gn qc'trgĘ e1p .er5e1o1 Ąn8a.r ouJotrĄI'qc"IJ9oFeA nqo qc,{znp o '!n8er b|rue;erde11 -i'm7.9gou1nbvnpqn1elcrudsłreznp ?|zur ergq .,Qn8er9emore;erdt8otu ńcń1qeuy y qc ścb|ercrłrezt |cąesueĄ EqZJ\ g l y qcścb|elev'tvzr|c1esuer1eqzc\
*
(v'){ g UV)d
: Glild
- rsouJ. .&vro1s rurfuul
Tabela 10.4. Możliwe zbiory dwuelementowe
Szparagi, brokuły
5 1
Szparagi, kukurydza
Z
S zparagi, zielona papryka
0 5 I 3 5 3 6
Szparagi, fasola
Szparagi, kabaczki Szparagi, pomidory Fasola, brokuły Fasola, kukurydza Fasola, zielona papryka Fasola, kabaczki
Brokuły'kukurydza Brokuły'zielonapapryka Brokuły,kabaczki Brokuły,pomidory Kukurydza,zielonapapryka Kukurydza, kabaczki Kukurydza, pomidory Zielona papryka,kabaczki Zielona papryka,pomidory Kabaczki, pomidory
2 4 1 2 3 3 4 I 3 f
Fasola, pomidory
(częśÓ 1)? A priori W.;''10.3.Jakdzialaalgorytm zbiorÓwzdarzeń częstych Twotzenie Rozważmy zbiór transakcji D przedstawiony w tabeli 10.1. w jaki sposób algorytm A prioribędzie odkrywał regułyasocjacyjne w tym zbtorze danych? Niech l = 4, tak ze zbiór zdarzeń jest częsty, jezeli występuje co najmniej cztery razy w D. Najpierw znajdujemy Ą, jednoelementowe zbiory częste,które są poszczególnymi warzywami. Aby to zrobić, możemy uzyć tabe|t 10.3 i zsumować elementy ' kolu-nu"h, co da nam liczbę transakcji zawierającychdane waŹywo. PoniewaŻkaz,lznajemy,zekazdyzbiórjednoelementowy dazsumjestrównalubwiększanizQ: jest czgsty. Zatem F1 : {szparagi,fasola, brokuły,kukurydza, zielronapapryka, kabacz. ki, pomidory). Następnie przejdziemy doznalezieniaczęstych zbiorów dwuelementowych.W ogó1ności,aby zna|eźćF1,, a|gorytm A priori najpierw konstruuje zbiór Cł kandydatów t-elementowych poprzez potączeniazbiorów Ę_1. Następnie algorytm przycina Ck Za A priori. Zbiory zdarzeń,które przettwałykrok przycinania, twopomocą właściwości izą Fl,.Tńaj C2sktadasig ze wszystkichkombinacjiwarzyw i jest pokazanew tabeli 10.4. Ponieważ l : 4, mamy F2 : {{szparagi, fasola}, {szparagt' kabaczki}, {fasola, kukurydza}, {fasola' kabaczki}, {fasola' pomidory}, {brokuły,zie|ona papryka}, {kukuzdarzeń F2, aby ut:worzyćC3, rydza,pomidory}}. Następnie używamy częStychzbiorów ze sobą zblory F2, gdzie zbiokandydatów trzyelementowych. Aby to zrobić,tączymy _ I elementów. Na przykry zdarzeń są tączone,jeż,elimajq wspólnych pierwszych k _ 1 : 1 element wspól. ład {szparugi,fasola} i {szparagi,kabaczki} mają pierwszy k ny, szparagi' Zatem są połączone w nowy kandydujący zbiór zdarzeń {szparagi, fasóla' kabaczki}. Podobnie {fasola, kukurydza} i {fasola, kabaczki} mają pierwszy e|ement wspólny, fasola, tstorząc trzyelementowy zbiór kandydujący {fasola, kukurydza, kabaczkil. W końcu w ten sposób są tworzone trzyelementowe zbiory kandydujące
.eIosBJ}.{Ęzcuqo1 .r8eredzs}'{uloseg'r8eredzs}.{qzcequą} .{e1ose;}.{r8eredzs}ts s fg z $zzceqea 'BIosBJ't?ercdzsl.: ,sgcelu'pepfzrd u|\I rurerorqzpodrur'fulrcgu17y1' .ń.tł.o1ueure1eoupe| 4ud$seu 1se[,(ueptzod o1sózc dlo1sord e1p ez,fiulzeli.nez.S n]olqz ss n.rorqzpodo8epzer1e|p Ąe1 qgrz.IcgouJn erue3uu,{,t.r euprrrmru eruleds y \e?el'A ?gtt z r zrg.ttts ',s,szeq s tgrqz ez)euzo (ss - s) erzp8 '(ss - s) e ss :u tuf,(ce|cose ó1n3er fuze.tzou .,s lueJolqzpod ul,(1snderuelzp1q ss qcelu .erudó1su1q.7 .s fuorqzpod errns'Łs,u zrg.tqn ..t.uerd[e1q . 1
HgANfASVTCoSV ?nCtUilNlZUofYU :s uezrepz ruorqz odels -Ózc oflepze,>lelpnsaooJd o8ełro1orąn^\pŁJoluodez eue8blso ollsof .yezrepz.ĄĄgJolqz qc'(1sózc Łcoruod ez qc(u|Kcelcose trn8erBIuaZJo^\J B|uepaz op furarzp|ezrd erudó1se51
qcńu!ńculcose ln0eJo!uozJoml
VuilJonleepqpłPr.'.0| ......: e(ztqÓzc)t,loud qcń1sózc elpyazl,pz^\gJolqz EIueVeIęuz eluepez^'"o"i'jJif;.rux:n: 6,qcńuep
-u1,l?e:rdzs}} :eg m veznpz lgtqz śzcuśpe|od zerułrgr1se[ o11'$ e|u1sozode .,{ue't.tnsn zttglup'(puu1z l?nsp za1 o3ep1ą.śzel śzn o11'! {fuoprurod .uzpfuru1n1.e1oseg}I}IqZ v .1|c>1esuer1 eIc'IT uu Kzel Kn1zc e|ndólsń.ł.r{qzceqeą .u1osu;.r8emdzs}J7IqZ,vezJepz ś'lotqzalsÓzc '(qe .łrgtep'(puu1 qc'(1 .(urrsnru IBpuN 9ńzrozvr1s 9,ouzc\ 9rzp.turds .eg łr órs 1łreloderu r e1órunsnlse| .qzceqeą .e1osu;}e? .eąruz(lttlotld y lcgo,n za1 o8ap1p ,alsózc gśqezolll etu {'{roplurod .Icgełł\ ulolez,Q: > uur r9lqzpo6 1sa|eru 7.Ąslzc t 7c9o1sózc {fuoprurod.qzceqeą} .{,&optulod.pIZc?qDI .e1osug} .eg .tłórs : ,s Zeluł\9r '{urzełrzog 1łte|odetu l e1órunsn ,e1sÓzc .ezpfuru1ru1 .e1ose;}ez .uąlu,iu tlot.td y eru ]se| zel o8etu1p 9śqazola {1ązceqe4 .ezpfrnąm1}UJelEz,Q : eru ulu {pt I39o^\Ic9Bł^\ > g 1se[ 7'e1sÓzc {uzceqeł v 99o1sózc -ZcuqeĄ.ezp'fin1ru1} Jglqzpod .{p1zceqe1.ezp,(lru1n1.u1ose;}- S KUI?EMZoJ łEupal .e}órunsn ZeIu./Y\gJ eIue]SoZ elu {'ftoprulod .u1osug}- S a4.crzpłrulds ezoru .ezp.(m>1ru1 .e1órunsneIIIeJsoZetu {1ązcuqeą {Iule]',(z3 .BIos?J.t8e"redzs}: s o8e1elp.hsÓzc 1se|łrgrorqzpodqc'Ę z śpzunaz,śanlzpln'.0I {eq .{e1osu;,l?ercdzs}:z: -ą7.{rnzceqe1.e1osu;} t {t-łzceqeą.r8eredzs} I_łeZIeIUruolo '{.lorqzpodecbfndłseu ouoZJo1KJ35 .{rrlzcequą.e1oseg.r8uredzs} : ^9tlcelu ,pup1śzld BN .eueł\nsn1se|o3e1e1pr e1sózc cśqazoln eru s .zQsózc]se[ etu łrgrorqzpod qcś1z Ku -lofuiopqove1 .I - ł ezft,ruilor o frorqzpod euezpłrzrds r euozro4 Łs €J ty\S UezIvpZ €3 erudó1sey nJolqz o8epze1 e1q.uot'td y Ic9o'iulc9u1.t.r bcourod ez Klseulcśzrd.lse| .DlzceqeĄ {{'fuopuuod .{'ftoprulod.ezp'(m1n1 .u1oszg}.{1ązceqe1.ezp,(rnąn1.u1ose;}.{uzceqa1 .e1ose; .e1oseg} .uzp,ftru1ru1 .e1ose;} .r8eredzs}}- t) wewz.{'ftoprulod ,|ĄZceqeĄ.z1oseg}r {'ftoprurod
Tabela 10.5. Możliwe reguĘ asocjacyjne dla danych ze straganu warzywnego: dwa poprzedniki
Jeżeli kupuje szparagi i fasolę, to kupuje kabaczki Jeżeli kupuje szparagi i kabaczki, to kupuje fasolę Jeżeli kupuje fasolę i kabaczki, to kupuje szparagi
4lI4 :28,6Vo 4lr4 :28,6Vo 4l14:28,6Vo
4/5:80Vo 415:80Vo 4 1 6: 6 6 , 7 V 0
kabaczki}.Dlapierwszej regułyasocjacyjnejpokazanejw tabeli 10.5,niech 55 : {szparagi, fasola},wtedy (s -ss) : {kabaczki}.Wsparciejest procentemtransakcji,w których występują Zalrówno{szparagi,fasola}, jak i {kabaczkj}, czyli 4 (f8,67o) z 14 transakcji w D. Aby znaIeźćufnośó,Zauwazmy,ze {szparagt,fasola} wystgpują w pigciu transakcjach (z I4), zktórych cztery zawieraiąrówniez {kabaczki}, co daje nam ufnośćrówną 4/5 :807o. Statystyki dla drugiej reguływ tabeli 10.5 są podobne.Dlatrzeciej reguły w tabeli 10.5wsparciewynosi nada|4l14 : 28,67o,ale ufnośćspadado 66,7vo.Jest tak, ponieważ {fasola, kabaczki} występująw Sześciutransakcjach, zktórych cztery Zawierająńwniez {szparagi}.Zakładając,że minimalny poziom ufnościwynosi 607o iwymagamy pojedynczego następnika, mamy kandydujące reguły pokazane w tabeli 10.5. Jeżeliminimalny poziom ufnościwynositby 80?ó,tzeciareguła nie Zostałabyzg|oszona. W końcu przechodzimy do reguło pojedynczym poprzedniku i następniku.Stosując metodę tworzenia regułasocjacyjnych Zarysowanąw powyższejramce iliywĄąc zbiorów zdarzeńz F2,mozemy Stworzyćmożliwe regułyasocjacyjne pokazanew tabeli 10.6. Aby zapewnić ogólną miarę użytecznościreguły asocjacyjnej, analitycy czasem mnożąwsparcie i ufność.To pozwala analitykowi ustawić regułypod względem występowania i dokładności.Tabela 10.7 przedstawia taką 1ist9dla naszego obecnego zbioru danych, po pierwszym przefiltrowaniu regu|z minimalną wartościąufnościrówną8lvo. Porównajmy tabelę I0,7 z rysunkiem 10.1, reguły asocjacyjne utwotzone przez oprogramowanieClementine wersją algorytmuA priori z minimalną ufnością80vo iposortowanewedługmiary wsparcie x ufność.Pierwsza kolumna przedstawia Liczbęprzypadków, w których poprzednik występuje w transakcjach. Druga kolumna' którą Clementine nazwało',Suppoft'o(wsparcie, pokrycie), wtaściwienie jest tym, co określiliśmy jako wsparcie w tym rozdzia|e (opierając się na Han i Kamber[l], Hand i inni [2] i in. nych tekstach).To, co Clementinę nazywa,,Support'',jest procentem wystąpień samego poprzednika, a nie poprzednika i nastgpnika. Aby znaleźćwłaściwewsparcie dla reguł asocjacyjnych za pomocą Clementine, na|ezypomnożyćzgtoszonewsparcie i zgłoszoną ufność. Zauważmy,że po kolumnie z pojedynczymi następnikami pojawiają się pierwszy i drugi poprzednik Qeze\ijest).Poza nieprawidłowąmiarą wsparcia, reguty asocjacyjne oprogramowaniapokazane na rysunku 10.1 są tymi samymi regułami,które znd''eźIiśmy odręcznie krok po kroku dla danych Ze Straganuwarzywnego. Uzbrojony w tę wiedzę, przedsigbiorca Straganuwarzywnego możewdrożyć strate. gig marketingową,która korzysta zewzorców odkrytych powyżej.Dlaczego teposzcze.
t|ndn>lńper1.g elc ćv łDI'fuB uIIUz śuezbl^\Z -ąnpord euurzrrode3 o r1eruurodez eru śq.ruo1uer14 śqe,euozpezldnce1soz 9euruodńzld .euotuetulz -nłsqo qc'$ fz3 dn4ez luo]uelp[ 6mg1ąnpord 9I.ĄA1€łńqe n ąel ?e$oz ouurłrod qcn1'(zso1łr Ł|ndólsńłr :ulezel't1ąnpordeq93 zrrgqnpordeluezczseTluzolśz3 ć1Y\91uept
88ZZ'0 8877'0 88ZZ'O 88ą,o vL6Z'0 VLbL
U
LL9C,O
oboS: 9/v ob08: S/V 'b08: 9/v o b O S :9 / n %E't8: 9lS obt't8:9/9 obL's\: Ll9
o b 9 ' 8 7 : V r / V ó1osu;efndn1 o1 .P1zcugełr t8e.redzselndn1 1eze1 o b 9 ' 8 7 , :V r l V I}|zcageĄelndru1o1 ,ó1osu3r r8eredzs efndn1 tTeze1 ob9'8?,: ,{1n4orqelndną o1 .ó1drded ?uo1erzefndn1 r1eze1 v l / v obg'82: ó>1.&dedbuo1erz e|ndną o1 .fp1orq e|ndn1 4eze1 v l / v obL'$: plzcuqeł elndn1 o1 ,t?endzs e|ndn1 tleze1 n r / 9 o b L ' g t , :b I / 9 ó1ose;efndn4 o1 .r8sJedzs e|ndo1 Ęeze1 o b 6 ' Z V :t I / 9 ó1osu3e|ndn4 o] .P[zc€ g€ ł e|ndną r1eze1
.99ouJn x ercredsłr8qp %08 9gouJnPuIBIuT.uT.t[ .errrarue.tro8elezsn:o8eułrdzre,t nue8e4s ez qc'(uep e1p qcdufdce|cosep8er ?tsII B1ńocgo) .l.0I BIeqBtr
o b L ' 9 9 : 9 / n o b 9 ' 8 7 , :V I / V o b 9 ' 8 2 :v r / v obog:8/v o b 9 ' 8 2 :V I / V %08: glb ob08: glv o b 9 ' 8 ? , :v l / v o b L ' 9 9 : 9 / V o b 9 ' 8 2 :V I I V o b 9 ' 8 2 :v l / v o b 6 ' Z n :b I / 9 ob6'(n: VI/9 o b L ' 9 8 :t I / S obL';t: nr/9 obL';t: tl/9 o b L ' 9 8 :n I / S o bL ' 9 8 : V I/ 9 % L ' S t , :V r l g obot: OI/b obL'58: L/9 ob09: 0l/9 ob9'29:8/s obog: orlg obv'IL: L/S obt'88:9/9 ob\s: 0r/9 obt'88:9/9
ezp,fiqnr1 efndną o1 .'{roprurod efndn4 1eze1 .ezp'(młnll afndną r1eze1 'fuoprurod elndn1 o1 .ór1drdudtuo1erz efndn1 Ąqorq efndq o1 1eze1 Ó1d.rdud Łuo1etz e|ndn1 o1 tp>1orq e[ndn1 r1eze1 ó1ose;efndnr1o1 .'fuoprurodefndn1 1eze1 .,ftoprurode|ndo1 o1 .ó1ose;a|ndn1 1eze1 ó1ose;efndn1 01 .Plzceqe>Ie|ndnr11eze1 plzc€ q e{ efndn1 o1 ,ó1ose;elndru11eze1 ó1ose;efndn1 o1 .ózp,{rqn1 e|ndn:11eze1 ózp,(m4ną elndn4 o1 .ó1osu; e|ndn4 łeze1 6eredzs efndnl o1 'plzr?qu{ efndnl gezel r;4rlvwĄefndn1 o1 ,l?endzs e|ndn1 rleze1 r8erudzs efndn1 o1 .ó1ose;s|ndn1 qeze1 ó1ose;elndn4 o1 .r8erudzselndn1 1eze1
ryupezrdod nue8e4s qc'{uupe1p eu|,(cefcosu ,(1n3ereAIIzotrĄ.9.0T BIeqBJ uepef :o8eu.trńzrBrrr
Rys. 10.1. Reguły asocjacyjne dla straganu warzywnego, stworzone przez Clementine
danych doogÓ|nych binarnych odzmiennych 10.5'Rozszerzenie {.:,.....,..;:. iakoŚciowych Do tej pory omówiliśmy reguły asocjacyjne lzywające tylko zmiennych binarnych. To Znaczy'wszystkie atrybuty Ze Straganuwarzywnego przyjęłyformę binarnych flag (0/1)' skutkując macierzowym formatem danych z tabdri 10.3, odzwierciedlającym bezpośredni problem analizy koszyka sklepowego. Jednak reguły asocjacyjne nie są ograniczone tylko do binarnego typu danych.W szczególnościalgorytm A priori moze zostaćzastosowany do jakościowychdanych. Spójrzmy na przykład. Przypomnijmy sobie zbiór danych adult analizowany w rozdzia|ach 6 i 7. Tńaj w rozdziale 10 zastosujemy algorytm A priori do zmiennych jakościowychw tym zbiorze danych Za pomocą Clementine. Minimalne wsparcie zostało określonejako l)vo, a minimalna ufnośćjako 75va, z wynikowymi regułami asocjacyjnymi pokazanymi na rysunku 10.2. Z regułz najwyzsząufnościąkazda ma następnik sex : Male odzwierciedlając stosunek 2 '. I męzczyzn do kobiet w zbiorze danych' Przypomnijmy sobie, że było kilka wartościzmiennych Marital_Status i Work_Class, tak ze te atrybuty nie są binarnymi atrybutami jakościowymi. Algorytm A priori po prostu znajduje częste zbiory zdarzeń, tak jak poprzednio, tym tazem zliczając występowanie wartościzmiennych jakościo-
eluazpel 'tuzrueqceur łr ńuozesod,fuvr ezrqop lsel eru uotld y u4.{ro8p ń1e1serg.ncs -lerurur,{uerq'it.rłr e[ cŁ|nz'{1eqs,(p.rur'Qvrotcgop rru.,(uue:n]fz oz ópur erqos b|upruvc l g.73 fu4'fto81u eqo ez ,zeluntgl '(urgr1erzpą6.IupeJ9o>1eiqceąpudśzldl4cśp1sozod,t r ń7np oąe| $000 0t lezńłrod pgqcop .,{1eruoąei $000 0€ lazruod p9qcop cb|nrugaperu ,pep1(zlduu .er[olcsop Ąnq,{4u gełroz'fieqs'(p euzoru ezslrllez.ercsrłr'(zcg J€Jłlqm .qc'(uepnseDI€Z o8ezs1ór,t.t, qcńuuerurz.etłttcs?11vt op qc,(u|.{cu|cose 1qc'{'t.rotc9o1r .e|erzp .,(ursqelzptłr órs oc >1eupe1 1n3ereruu.t'tqpo ezszu cŁzlazszol ńrueinqgrd ńpery .elnpołrod.rur qc'{uepr8n1sqoop euo órs t|upuu ezlqop o,t.ro>1tt|'(.tr ez 4e[.qc.'itł.orc9o>1ei -DIS,toIooqrrueruezur.,(łr ?s 1tudfiseu r >pupezrdoderzp8 .qcńu|,{cu[cosu 1n3erern14n45
Ppopul ln60l;!cqnpu; !euo;u;g0on .9.0t :llceutolul ll'oolo!3$!opod ..ł; .qc'(t.rorc9o1e| qce1nq,(4uo uezrcpz IueJoIqZur'(lsózc urń.tno1ueruel3n^\p lled Ól cbluizc ,ssryl)_łJollĄ aJD^lJd |auueluz u|p sn1o1{1o1uną t n1ng(s1e palJ.tDlu_ła^aN e|p 99olJu^\ obz,g71se|o1 .Z9T,,O: ggL,O,6T,9.6ot ołvlellłvz,ttgpJołeJ elp ercruds16 .('.(zc Ąn8er let .etcl€ds.t.t o1e| óqzc1 -ep€q ?gozsłlllr^zezld |e$tśzldercófod o3e1r|crugep !euu1^\eJq,t.r ól elnplurl eul]ueruelJ .nłrou7) .qc,{uepezlo|qz ł\ AopJołeJ Kqzcl1 ob6,zę,elntuezerd -el o) ,paul01u_ta^aN99o1J€,ĄAtrbtńzldSnp]S_p4rDI^[lnq'trte alzp? ,qc,{uepezrcIqz 1^ łrg>1pedńzrd trc9ou;n Z .'a]D^Ild= SSD!)_>!loĄo1,paulnu_laaa71 L,Zg ołK11.ob9,9L _ Sruas-p7ltury rIeZeI,, :T.OI nąunsń; z Ó1n?al b,tbld śuzunzor .pup1fzrd u5 .ńeg eruu,tlodóls,&vr etsord eru u .qc'{,u tlolld y ul1lso?1ezazld euolzelauz qc,(łrorc9o>1e[.u9rnq,{4u e1peul,{cefcosuf1n3e5 .z.0I .sdu
{ć*.Bc
9 S SI S
sfe il
frirs*
t ' ł ' *l
s9*9/
988rt
7,(,*'At
Łt8}i
tt[ 9t
ts t-Jt %e,slitĄBa:.
*sst I I.IB
tBt' g[*1 s{9/ t*i.t I
A I P U J * J= x 8 9 = snłEl$1*l1,lBu; s*uJ*l]J-]8'1*ld pł'JJęu'l.]€ ń sN * snlels1€ } 1.e|łJ aleAi]d - $sćlłąJ € ! B|df - xg5 p g ilJeUl -laAaN 5 9f.}ł*}9 l słuPtł pa.dgł*u]a{ag= 5s8|JxJ*]x *}*Ąjd = 5sg|r}iJońn PallJtW = snlelsleiilBul pa|Jr€ W - sryels-|g1i]BuJ
96t
Sobie Ze zmiennymi ilościowymi, chyba ie zosta|yzdyskretyzowane podczas wstępnej obróbki danych. oczywiście dyskretyzacjamoze prowadzić do utraty informacji, takze jezell ana\itycy mająilościowezmienne i nie chcą ich dyskretyzować,mogą wybrać ali".nuty*ną metodę odkrywania reguł asocjacyjnych: uogólnionąindukcję reguł (ang. generalized rule inductiołz(GRI)). Metodologia GRI moze przyjmować na wejściuzaió'no zmienne ilościowe,jak i jakościowe,ale nadal wyma ga zmiennych jakościowych na wyjściu. Uogólniona indukcja regułzostaławprowadzonaptzez Smytha i Goodmana w I99f roku [3]. Zamiastlzywać czgstych zbiorów zdarzeń',GRI stosuje podejścieteorii informacji (ang.Information-theoreticapproach) (takjak algorytm drzew decyzyjnych C4.5), aby określić,czy kandydującaregutajestinteresująca.
10.6.1.,r-miara Dokładniej GRI stosuje ./.miarę:
^#+Il -p(y|x)]'"H#] J: p(x) fłr-rll
gdzie o p(x) reprezenĘe prawdopodobieństwolub ufnośćobserwowanejwartościx. Jest to miara zakresu poprzednika. Jak rozpowszechnionajest ta wartośćatrybutupoprzednika? Można obIiczyć p(x) zapomocą rozkładuczęstościdla zmiennych z poprzednika. . p(y) reprezenĘe prawdopodobieństwo lub ufnośćwartościy. Jest to miara występowanianastępnika.Można oblriczyćp(y) za pomocą rozkładu częstościdla zmiennych następnika. o p(y|x) reprezenĘe prawdopodobieństwowarunkowelub późniejsząufnośćzmiennej y dla dan egox,które następuje.Jest to miara prawdopodobieństwazaobserwowania wartościy pod warunkiem, że występuje x. Zatem, p(y|x) reprezenĘe uaktualnione prawdopodobieństwo obserwowania wartościy po zyskaniu dodatkowej wiedzy o warjako lościx. W terminologii regut asocjacyjnych p(y|x) jest mierzone bezpośrednio ufnośćreguły. o ln jest logarytmem naturalnym (logarytmem o podstawie e). Dla regułz więcej niż jednym poprzednikiem, p(x) jest obliczane jako prawdopodobieństwo koniunkcji wartościzmiennych w poprzedniku. Jak zwykle, użytkownik określapoządany minimalny poziom wsparcia i ufności. Dla GRI jednak, użytkownik również określa'jak wiele reguł asocjacyjnych chciałby ottzymać,poprzez określenierozmiaru tabeli regułasocjacyjnych wykorzystywanej p,z", ilgo,ytm. Algorytm GRI generuje wtedy reguły asocjacyjne z pojedynczymi poprzednirami iob\icza'I, wartośćJ-rcnny dlareguły. Jeze|ireglłajestinteresująca,czy|i wartośćJ-miary jest większa niż obecne minimum 'I w tabeli, nowa regułajest wkładana do tablicy, która ma stałyrozmiar poprzezusuwanie rcgl|znajmniejszą wartością'I. NaStgpnie rozwazane sąbardziej wyspecjalizowane reguty zwtększą|iczbąpoprzedników. p(x) jestpozanawiaoczywiście(ponieważ Jakmożnaopisaćzachowanie"/-statystyki? sami), większe wartościJ będązwiązane z większymi wartościamip(x)'Zatem "I-miara
.tgtI,O: ó1ezcl1qo oluper9odzeq eulueul3lJ .óuuedtru,u @)d o{B|?9ouB'ĄĄ -'(srdoerzpóq pJołeJ ,{ue"lqńłr o^\osolez .o.trt.1syetqopodopłrerd elĘuezerder (x)d o . :ł'!s'!els qc'(cŁ|ndfi seu'(tue|nqez ary) o61,11 ruercrudsrvrr Ąo d @bg, I v ,paLłJDW_JaĄdN _ _ sn]D$-lDtlJoh[ I alDW obt.,gL ssD]J1Fo^Ą o] Z'ałoĄtJd Łtcgoqn .a! = xa$ tla?at.tOI ru1unsńrz |eu|'(cu|cosu ń1n?er|e1s9zse1pórurru-1 Kulvp|pu7 p8er rlc1npur feuoru1g8onru1,{ro31u zazld auolza1euzoul'{cefcosu,Ęn3e6 .g.g1 .s'(5
nźL"ł"v
nIt t8
0/$ ile
0ss'18
iltg rt
06e!8
D S iS I
0la-9ż
A E 8T [
0r9'al
D [ gt t
's/ 0 r.f
0cng J [{a l'*sb gIBe 6rfr / | B 1 | .l
:---'1,::_g
fl aUJtlll-lar!31'{= sn}E}r-lsllleUJ a ł e u ] a l = r a 5 tlE"Ą|Jd: ss*|r:i-l s*}'lJ*il.lał*N . *ftlPl$-|Ęł!lauJ ątfiJd * c9ę|i}il pa#J*|u.ló&€ i { - gnlBlg-|g}|,l811.ł als*{ * x&5
x:ł$e|3fl] s}Pńł]g|
l]a[0ldu]atraS:ssElt)'li01ui pa!].ł*'q = *ntr8is1Błl]8Lł 3}rĄ|l/ = 9SE|,})ilo,fu\ pa||J€}! = 9n}Els{E]|leul
alell rx.a s|€ | rr|- xg
snłpa*x lałło
lnreur$Q lrtJE
.E.0Inł -uns.,fu p8eJ lloqul IefUJZoIfu1uru,{sąeur c?|u19er1ozero eu euuza1odŁs r,1ru't16.gg o>1e[ o691' ?qurururru obOI o>1e[ ercruds,t.reuprumnu c?|u19er1onłtouz .qc'(u o1e| I 9'ouJn -ep qcń.łłorc9o>1e[ qc'(uuelluz op euDueluelJ eruu,t.roruer8ordo ozrorqz,t.r 1gg u4'tro8p śqe,ąnpoqc'(uep nJoIqZ op ,{ur99r11 'tru9qu.tłoso1sv7'lmrul-1 c(zct1qo o,to.opep1ńzrd
.z.9.0l elup|llosolsez łn00ll[cłnpul [0uo!ulg0on .(.....tue,łttd .WłEIZp Z DIsIolSaz n4ouzed b|ur,t.r1zorun eru olsózc >1uupei orupargodzeq fru9ruurłrodez .ó1sftr,n..) ecŁ|nsere]uro1sózcts 'Ęn8er eułrń1u8euerą op JoDI€I 9garuezld -B1ZBIcoqJ .ob66,66Łlcgou;n z nyouzttd op n.łaDpla[ndn>1 gIN 01 ,outd a[ndn>1ryazaq azour 4'!1euY .eł€ru łe1 lse| ?9ouJn zu,teruod :y óru.ro; bu.,r.r1aez.rd ?evvMZoJ '(pe1,t.r ,obIO,O .Óleyl-7 : (x|K)d Łtc9ou ur9tą zazldvuvnozśsolt'v1arzpóq eruqopodopłrurd ,pup1śzldeu -!n Z Dłouzod op nu1o1 a{ndnyo7 ,outd a[ndn>1 la?at :Y ótrn?er,(ureure7' oB o tufńce|cose b1nBelIue^\oseJalurcz Kuv9p7.Ic9ouJn |e;eruep1'(.t.rzelu 9t(.q'{uezoru -ozcelq.Łrcgou;n b,treul elel:ul.ozpmqz oq1e.b,znpozprcqz oqp '{1n3ere|nz.,fto,t.re3 [ .n1rudó1suu .uu[ur4s (r|{)d 't1n8er |elzprcq1se| 1set.([)d 9'ouJnqn1eu|ur1s|e1zpruq ułuilu qc'{rgq u1p .p8er qc,fi utue,tozt'rcnru1 op ó|cuepue1ZoIu,ĄĄoJ o'ĄĄ1syelqopodop,t.rurd ({|r)d ! (K)d dp8.rcgogułr elzpóqeleIlcrl-[o3e1u1q.(tqnt eHSIIq)eu|ur4s 0 |a1zpleqŁs .qc.{uep eZJoIqz,t.r elc,fu4od ezsde1 cb|u1perc.rel,ł.rzpo.azs ezs1ór.t.re8ttso tmyJl-t Zeru,ĄA,9d -]sózc Łs ,tłg>1rupezrdod qc,{:gq .trn8ererue.troz,(lołre; tc9ogu.t.r op ó|cuepue1etrelwelzpóq l8,l
. p(y) reprezentujeprawdopodobieństwo, że losowo wybrany rekord będzie miał' Private jakowartośćatrybutu Work_Class.ZtozkJaduczęstości z rysunku 10.4 widzimy' żeto prawdopodobieństwoto p(y) : 0'6958. . p(y|x) reprezentujeprawdopodobieństwowarunkowe, ze rekord mawartośćPrivate dla atrybutu Work_Class, pod warunkiem ze opisuje pannę' Jest to nic innego jak reguły,p(y|x) :0,763. ufność
Rys. 10.4. Znajdowanie p(y): początkowe prawdopodobieństwo Work_Class : Private
Wstawiając te wartoścido wzoru, mamy I - p(vlx)l l'p(ylx) I : p + L l - p(yl x)l l " _ p(y) ' ( x')L|'p ( x l"y )I n I .l P(Y) 0 . 2 3 71 l - - , - - -0 , 7 6 3 : 0 , 1 4 6 3| 0 , 7 6 3 l n t" + (o,f3j) o_ror-l 0,6958 L : 0, 146310,763ln(1,0966)+ (0,f37)ln(0,7791)l : 0.001636. Jak wspomnieliśmypowyżej, GRI może obsługiwaćzmienne ilościowetak dobrze jak jakościowe.Przedstawimy to' stosując Clementine do zbioru danych adult, z|ecając algorytmowi akceptację zarówno zmiennych ilościowych,jak i jakościowychjako możliwe poprzedniki (chociażnadal tylko zmienne jakościowemogą być nastgpnikami). Wyniki dla takich samych kryteriów wsparcia i ufnościsą pokazane na rysunku 10.5. Rozważmy na przykJad trzecią regułę asocjacyjną z rysunku I0.5, Jeżeli a?e < 0'f1f i education_num<0,7, to Work_Cla,'s = Private. oba poprzedniki są liczbami, z wartościamiznormalizowanymi do przedzia|u od 0 do 1. Prawdopodobieństwo poprzednika p(x) : 0,2948, co mówi nam, ze f9,48?o wszystkich rekordów ma a|e < O,fIf i education_num< O,7. wartośćp(y) reprezenĘąca P(Work_Class) : Private wynosi nadal 0,6958 zpoprzedniego przykładu.W końcu, p(y|x), reprezentujące prawdopodobieństwo warunkowe, że rekord ma wartośćPrivate dla atrybutu Work_Class, pod warunkiem żerekord ma zarówno a7e< 0,f1f, jaki education_num< -miary dIa 0,7, jest dane jŃo ufnośćreguły,p(y|x) : 0,7988. Znalezienie wartościJ Ę regułyjest zostawione jako ćwtczenie.
rrJe,ĄĄołS ru'(upe1 .|erugezcłrąerłr1o1'{per4zlu azs1sÓzc Łs ,trrgre1op '(uoqnu ect|n1zso>1 śzl1elneuJBIu...łułlpl t ?e4słt..nd't1qcńuep l|cero1dsąeop €Iuu,ĄAoluer8ordoo8eue't.ros -IJvN\eeZ uretc9|epeu7 .,tł9>1ru.{'t.r ulu3^l3Js^\od łrgurzruuqceruqcĄń'qn I llopolu ?IueIIu -nzolz n11rs.&Yr eluełrorulapod zeq.uro>pu,(tł. ru'(tn.ore1ndruo>1 '.(p8ru .{uurłrod 9.{zrer,t.r .99ouJn elu qc'(uupŁ|curo1ds1e órs ecŁinruluz,{qosoeZ .9l19eĄpodśze1eułeupef lse|eurl -uotuolJ n tłotld y nur1,fto8p'(ueco uleurzlu€qcaru ul'(u1gXruopez .o1lse|Łrzper.t.rodpo ,euzca1t|7nzeq ,o8ezce1q t>1q'Ł5 io1ruetur.{łr?.|erue,u.oruer8ordo lse| e1n3esqeze| ńtrn8er|e1aruełroso1sztu qc'tuup ruoIqZ o8etrucz etuu,t.roso1 |ezcer 'LZ9,Oop o8ełroso1o.t.r1syelqopodop €899.0 z KuzśzczÓuleruerqf.t.r ?npercp '{qopze1e5 -,t.rurduzsfe;utuz e^llcs€1łr |eu['(celcose,Ęn8er |e1eruułroso1sezt,uo1s r.ul'(uu1.ob;8,99 m1pedńzrdur,{1łr 1se[qcńr9D1.qcńuepevęq Muz|zczÓln łuecord9rupó18złrn,{ze1e5 .euzca1ś7,nzaq .e11er.ttrg uelłłec 9'(q ezoul u1n8erz1 e,ĄA uu?IZpI,ĄA )pupef .uzśzc7,Óln,t.t, ru'fuvucgu1łr ?łrou buozrerur.,{łr t,t.ro8ur1e1reur ól8e]urls .[eu|'{cu|cose 'Ęn8er |a19śzn9alJqc ezour rur,{,t.o1ezpnq rruzr1ru,uocerd ,{u 9ererdsłr'{qe -€^toseJeluluz fłro8ur1e1reruąń11uuy .obL,79 trcgou;n Z apry _ XaS 01 ,1uauruJa^og = Ss7!)-|loĄĄ l\aZa1 ,bu|Kcu|cosuópBer nłop po hnazą pup1śzldeu '(urze.t.rzog 'g'0I rl)luns^Jeueuez -u>1od Łs p{Iu'qĄ .[u€łrupezJdod uurołrpelqeur,(s1eur l o6ggblcgousnbu1erurulurr o691 urercredsłruńu1eurrurruz qnpD qc'{uepaZrcIqZ rvreu|'(cu|cose'{1n3arz1ńqpo ,{qe.eur1 -ueuolJ ńu9qńzn ,uolld y nrufro8p op cŁfeceąy1.pep1śzlduu ,(urzr[9d5.ezc|Upol^z IueSeZc?s p1rufłr q3I Z€.trleluod .t?e,t.ln Z euu.tosołS9'(q tzsnur au|ńcu|cose'{1n3e6
qcńuJńcelcose oluńpeil.l.0t ln0otgpmńłn
.:3,
qc.{uzcfuaunu qcfuuerurz e1peul,{cufcosu.{p8ar fzro,ul 1119u4fuo31y 'S'0I 'sfg rlrupezrdod o>1e[
Brr tF
0r1l8
rl$'il*
n g Bl g
BB'.fił
O * BE /
|]t$'*r
08fi*/
0[J'lt
0fi9'sJ
rar'9t
ne[*/
D?B.sŁ
0f8'8t
*rl|i|iŁ.6 e fit]t : xas fr|*|łl lieu$e*€afiĘ € | € | lt| : X$s
p alJ]Ęli'l = gnltłg-lslu g
EAIItffiFBSP BfDgZf'n e afiB j'n } ffRu.u*Ęernpó *t[ł ŁŁ.B> tsfiE rJa,ile,łr* s nitl* 1 € l lJ p|u ałtJl!]d* s9 ell.}'l0'!l p*ljlEy{: sRlelslPllJ*tu
apw* *iBlĄ|:
grę$uJft i%a!3Al)|od
i-**{"1';3 {nraua$-Q łl|;tl
Rys. 1'0.6.Reguły asocjacyjne wybrane a priori na podstawie ufności
eksplorację danych łatwojest źlezrobić. Wnikliwe ludzkie doświadczeniei stata ludzcenne informacje ukryte w bazie danych ka czujnośćSą wymagane, aby prze1'J.umaczyć w wyniki, które umożliwiają dztałaniei przynoszą zyski. Inne bezużytecznęregułyz rysunku 10.6 to: o Jeżeli sex = Male i Maritalótatus = Married, to Work_Class = Private. - Ufność64,8vo. _ Prawdopodobieństwo Work_Class = Private 69,587o. o Jeżeli Work_Class = Private, to sex = Male. - Ufność65,6va. - Prawdopodobieństwo sex = Male 66,83%o. o Jezeli sex = Male, to Work-Class = Private. - Ufność68,3vo' _ Prawdopodobieństwo Work-Class = Private 69,58vo. W każdym z tych przypadków, losowy wybór z bazy danych zapewniłby skuteczniejsze wyniki niż stosowanie reguły asocjacyjnej. W przypadku regut asocjacyjnych
Ic9ouJnnZ€ J oII el,ĄAelspod2u lJoud D emJq{,ł\eu|'{Jufcose'{1n3eg.8.0I .sfu
IJgouJn Actuzgt er,r,rulspod eu uottd o euerq.(,r,r euf,(cefcosufp8e6 .1.0I .sf1
,śvlzentne7 -'& eu e|ndó]s'{',lt.elu 9.0I DIunsńJ Bu lłJ'{uoI,ĄA31speZJd łn*ar z eupvz aZ
zsąórłrieub,|ętunadez",9ryr1na1,0J,"i1Tgffi iff iJii1i#::^*'#:Tli JsoJZ^Ąf (acuala{ltpacuap{uoc .8ue);csougnbc;u79.róls e1'(zn1sodUlezer ur'$ e1e,uoud y nuąś.s -o31etcotuod ez au|t|ce|cosu,tp8er u1ńzronqs'(qu .euquaurel) zent '{rue|'(zn.9umo4s -n1rzol dqy .qcułr1syelqopodop.łłerd qc'(t.roąttzcodqcścb,zsfz.re.tno1 o 9e1ólured śze1eu lg7,
202
Sunku IO.7.Zalwazrówniezobecnośćnowej kolumny Evaluation(ocena),któramierzy absolutną róznicę pomiędzy obiema miarami ufności.Rozwazmy na przyktad ostatnią regułęna liście:Jeżeli Maritial-Status = Divorced, to Sex = Female. Ta reguła(która, prżypomnij sobie, dotyczy zbiorl danych adult, a niekoniecznie populacji amerykańskiej) równiez ma największą wartośćoceny dla pokazanych reguł.Prawdopodobieństwo losowego wyboru kobiety w tej bazie jest równe 33,I7vo, podczas gdy ufnośćĘ regułyto 60?o, To daje namrlznicę O,33I,7_ 0,60 : 0,f683 pomigdzy ufnościami. Zauwazmy, ze ta rcgułabyta równiez pokazana na rysunku 10.6' ale była ukryta wśród beztzytecznych regut. Alternatywnie, analitycy mogą uzyć ilorazu ufności (ang. confidence ratio), aby ocenić mozliwe reguły.Jest on definiowany jako
|_ ,.,j"(p(!,) j+) ilorazufności: p(y) ptylx \
)/
Na przykład dla reguty: Jeżeli Maritial-Status = Divorced, to Sex = Female, mamy p(y) :0,3317 i P(Ylx) : 0,60,zatem
. ( p(ylx\ p(y) \
ilinl---.
.-,.l:--;--:
p(y)
0,33l',7 : 0,5528 0,60
P\Ylx) \ p ( y ) p t Y l x )/ i przedziat ufuości 1 0,5528 : O,447f' Jest to potwierdzoneptzezmiarę oceny dla tej regułyna rysunku 10.8. Zauwazmy, żew tym przypadku kryterium róznicy ufnościuzyskało te same reguły co w przypadku kryterium I|orazu ufności.Tak nie musi być Zawsze' W ćwiczeniach zbadarrly dalsze róznice pomigdzy tymi kryteriami wyboru reguł.
nadzorowane uczenie reprezentui4 asociacyine 10.8.Czyregu|y W,.;., Gzynienadzorowane? Zanimjednak zakończymy temat reguł asocjacyjnych, poruszmy kilka interesujących kwestii. Po pierwsze możemy zapytaĆ,czy reglły asocjacyjnereprezentująuczenie nadZorowane,czy teznienadzorowane.Przypomnijmy sobie, ze większośćmetod eksploracji danych reprezenĘe uczenie nadzorowane,ponieważ(1) jest wyszczegó|niona zmienna celu i (2) jest dostarczony bogaty zbiór przykJadów, gdzie mogą być odkryte możliwe związkipomiędzy zmiennącelu i zmiennymi opisującymi. odwrotnie jest w przypadku lczenia nienadzorowanego, gdzie nie ma określonejzmiennej celu. Raczej algorytmy eksploracji danych szukają wzorców i struktur we wszystkich zmiennych. Grupowańe jesimożenajbańziejpopularną metodą eksploracji danych, która wykorzysĘe uczenie nienadzorowane. odkrywanie regułasocjacyjnych,jednak, mozebyć, Stosowanejako uczenie nadzorowane albo jako uczenie nienadzorowane.W analiziekoszyka sklepowego,na ptzyklad, ktośmoże być, zainteresowanyodkryciem ,jakie artykuty są kupowane razem,,,w któstrony, pewne rym to przypadku zmienna celu nie zostanie zidentyfikowana. Z drugiej zbiory danych w naturalny sposób są tak zbudowane, ze dana zmienna pełni funkcjg
qcg^\po{I'q ł\gpJołeJ (obL,LT) z66 oĄ|ńł śzcś1op erc't.ąpo oI .(6.0I łeuns I Eę,t,Ez -fuzceqoz) Icuełł IuuI ZIu [ceu?Kzel łe1espo'tzs|etuurocbzceuz qemńzu4,tt.r...|eł\os -o13 ń1zcod nueld.. op ITeZeIBuKzry1Ą.lcueq1 e4 ,o] (ę plzpzol) ulnqc qcśurzp I rylqz elqos ńur|tuurod(zld,pe1nśzlde51 .łr'$u[cturqc'(u1s'(zroąr qc,(llroueluezoJp^\op 9IZp -ułrord ezour qc.(uzp .ł\EcJoZł\ elue.tr,tn1porues€zJ .qc'tuep r|curo1ds1ełr91ecqc'tzs -|eruze.ĄAfeu z ur'(upe|1se[łrocrozłr qcdqe1o1 qc.{ct|nse;elul eluelzeleuz nnouz I 'qJAuuenuz ,cezIoZM e|n1uezerdeg.nluezc Iłcg'!\pBIp I ,ĄĄgpJołeJ s€8z qc,Ę e1p ńup>1o11se|ńrgq -euz B1Y\ołs o8et ru'fislcg ł\ Iepou uz eue7'e1fin 9,lq azoln eru r Łu1uqo13ez euezenn 9Kq .qcgł\p .qc'(uuerurz ezolu elu euf'{cu|cosee1n8erze1 o3e1e1q eu o11'$ óls cbfn.Buecuoą .qc'(uepruoIqZ ggozsąór,trr u|ruod uu|ńce|cosuep8er ^l9pJołeJ9E8ZLp(1p9r9ods 1e^A3N o/o[88e1e]sozodelnrou8rI ^\gpJo{eJ(o/oE.II)sg8z op oą1ń1erue.t.rosolsez eru eu['(ce[c -ose etrn8arv1,az,śullzp|fu\.ob8,69 tlcgougn z paIJJDW= sruzl{1Dluvry ol ,paQo1dula -t7a5=sso13-uolę :9.OI nąunsńr z Ó1nBaltcŁlndłsuu pep1izld eu,{ruz.ełrzog la?at ^ .l.łJ^uep lJ'oZsłar,ĄĄ BIp eu1o]Slc^,(q.tzsnru elu eIB .t8otu er911 .,r.rgcrozłr qc'(upąo1 qc'Ę'fuąnuruełr't.rqpo IuaIeJ z qcńuep I7IqZM ?clot.Ąt.tł,, l1azafo?aupózrpod eIuepz eluuzrroso15'el|e1qó13 ..óIS .|eufńcelcosue1n8ern uazaf -nsud eru .ĄĄgpJołeJ e11'itł,ze?,Ąe7 euep 2gozqórm {elzp .qcduup e^\opBpIS eluepz e|nsols 1V\,Ą\gcJoz.ł\ qc'(qa1o1eluumd.rr1po op órs 9op1o>11'(1ąe1 .nlepotu o?au1eqo18ruaru b|epeuazlqop etu1o8azczseulńce|cose'Qn8er .fuołs |e18n.rp Z .elue1Y\olepou -e'ĄAopnq z uluelutzc op t|uru ńulg1pzvrguro eJ9DI po]etu 99ozsąóą6 .qcńuep ^\.ĄAopJo{eJ ngÓzc qn1qcńuuerurzn>Ilpto41t|19śzcś1op lc9o1surt'Łc -ezl ł^b8outecrcz.Ą\eulemeuzodzog .qc'tuzp nueqcoc rul'(u1e4o1ozclupasez ?s ecroz,tl '(uor1s|eFn:p 7.lącśllvpl9lqz śtrec uc?|nruieqo.eupqo181se|ełrfqedsred.cezr|ods eru o1 eu 'tq ąe1 .r|ce1ndodop p1qgrdz etuatqg8on r.tł.o4.,{1qeu3 'ft9D1.ruzrueqc ?I'ĄAIIZoIun .qgsods t|1zillrrz łr qc'(uep łuolqz -eu lłro1'{1t1eue 9lułredezb,cl4cecŁ|ru1sorułrelapolĄ o8e1eculuu.{\olunspod?in1nzsod ect|nsrdo elepolĄ 'ect|nąsorułrqn1 ecb|nsrdo 9śqb3 -our elepol^tr'qc'{uupruoIgZ o8e1uclueluezcelun|lfłr qn1urosrdo ul'(upqo18 1se| 1apo141 .IruDJJoz,ĄB lu?ppoul ,{zpórulod eclruzgl 9śzenzol bzsnru qc'tuup '{c'(1quuuncyoł łt
.6'0 p ocJozm 0l0p0lu0ulBq0l0 eu!Bło.| t ..,:,... .l[ce1g,(sup1e|uapaz op ru'(uełr -oJozpeu nIuoZJnłl eilzn 9śqzalan9ł b8ou e1e.ulńuułlolozpeuelu nruezon ^\eIuB1Y\os -olsvz b|eul e11't.,rłz euf'(ce|cose'!n8er ev ,eĄel lsel eruel'(d ol Bu 7pel.ł\odpoulewz 'otsoueA\ -oJozp€u €ruezcn elsecord łr rru'(uzcgur8ourepruleqJec rurńułredz qe1e.tł'tqo qc,.Łcroq -,&lrrlcuere;erd t|ceąg,{su1ą op a1śznce1soz'tq.Ę8oruau|,tcu|cose'{1n3erqgsods uol ^\ .ąrudó1suu,Łcu,{pe[od '(qe1u.t.ro1uazerder .rure1rupezrdod ezcroq'iln elcueregerd e rurdłr -I?ou 9'(q 'tq'(18ouleuzcgur8oruopeuzp elzp8 .qcfuup az$Iqz ulĘ łr euełr'fu1po 9'(q t8our euldcelcosu '(p8er nąpud'{zrdul'(ł r!\ .b,zcrcqśll.blcuere;erd Z laIeZeI.'(zcroqdłl Dlund qcfcŁ|ezczsndo p9J91ńelzpuos łr euzcgur8ouop eu€p I|elqez ,|zrc1er1uuev ,pełĄ -iz;rd eu Kul49p7 .(qcuruezcrłr9n Ko1dpep1śzldzceqoz) eąlupezrdod eru e .u1rudó1seu
Rys. 10.9. Korzystny wzorzec..posiadacze ,,poczty głosowej'' rzadziej rezygnują
zmiennych, jest zatem lokalnym wzorcem. Niemniej odkrycie tej cennej informacji moze prowadzićdo zmian polityki, które, wdrożonepoprawnie, mogą prowadzić do wzrostu zysków operatoratelefonii komórkowej.
*,, g*-
Literatura 10.10.
Han, Micheline Kamber, Data Mining Concepts and Techniques, Morgan Kaufmann, San Francisco,CA 2001. 12)David Hand, Heikki Mannila, Padhraic Smith, Principles of Data Mining, M.IT Press,Cambridge' MA 2001; tłum.po|.Eksploracja danych,WNT Warszawa2005. to rule l J l Padhraic Smyth, Rodney M. Goodman, An informative theoretic approach Engineering, Data and induction from databases,IEEE Transactions on Knowledge Vol.4, No.4, August 1992. [4] J. Ross Quinlan, C4.5: Programs for Mashine Learning, Morgan Kaufmann, San Francisco,CA 1993.
t 1 l Jiawei
ral
10.11. Cwiczenia 1. opisz dwie główne metody reprezentacjidanych analizy koszyka sklepowego. Jakie sązaleĘ i wady kazdej znich? f . opisz ufnośći wsparcie. Wyraź wzór na ufnośćza pomocą wsparcia' A priori. 3, Wyraźwłasnymisłowamiwłaściwość Dlanastgpującychkilku ćwiczeń,rozwazzbiórdanych zpracy Quinlana [4]pokazany w tabeli 10.8.Celem jest odkrycie regułasocjacyjnychzapomocą algorytmuA priori, aby przewidzieć,kjedy dana (ewidentniehalowa) gramozebyćtozgrywana.D|ategotez,
óls tlep elu e9u^loso}s?Z 'Ęnq'tłe eJg]x .slcJ€dsłr r lc9ou;n €IuezcrueJ8o eu1opeupbszor l93rło .ąerq |e|qn1 3|cvu?Kzel ect|nptłrezrdeuf,(ce|cose'Ęn8er gńolpo śqu,rlol.łdyu4'fto31e [nso1su7 .g1 .qc.(uuerurzqc,(uełro1ero1s ue1qord ztrm -ZoJ .o^\olcgo1u[euuerurz |npoąez.euzcńJeulnuerrepfnzr1eru.rouz.In7.-bqĄqc'{łro1eu.re1u Iłceuołsuu órs o?acŁ|t.tp|euzunqc qcŃrcp ruoIqZ |śzn,qceluazcln9ącśzszruod16 euzc'!ąurd BluezJpt\J '9.61 'T,I rupns'ft z ś1n3el |elcazĄe1p 'fuerru-1 9!oue.ł.rvppvz .9'ouJn x orcredsłr:trc9ou|e1o1 Z g,ou -|e1o1ó1 iuułrgro6 .f'up-r trc;opetr z elupo8z '!n8er |n3erezs1 .órevn-t ZcIIqo .qc,,(u|'{ce|cose p8er uolld y ulf.lo81e zezld tezśl.lrod qc'(uorzeleaz aZ |ep1eĄBIC .I I .erue.tł.oruer?ordo ?couroduz au|Kce|cose,(trn8eranolzeleuz eluzcÓl afołrs 7płrurds .ot .Ioqu} łr '(1n3er ln8erezsn Ic9ołIeI.ĄA |e18n1pe.ł.r zelo 8 1 L vezclw) z ś1n3el!ep?e>I €Ip 9gouJnzezld elcmds.,vr oue^lo'ł\Jasqo Zguulod .6 . obOZ UJelcrcdsłr ru.{qeuryI|n I obgL tlcgou;n tuprururur z .8 2ru3 {zc zruełrńpr,tezld op nueątupezrdod euro.tp z eufńcelcose ń1n3er ZJg1ńln 'obo1ara:'crads.,r,r ur'(qeupr-ur I o6glbtc;ougn tulururururz gnt8 {zc uruentplnezld op uePllupazldod anśzcu'{pelodz eul'(celcose ńp8er zlgtln 'L .e]sózc kolqz oł\o1uoueleKz4zl9n1n.€ : .9 Q qcelN .a1sÓzc fuolq, eĄo]ueuelen^\p ZJ91Y\ln.t: 's Q qcelN .elsózc ś'lolqzo'Ą\olue{uelaoupef zr9łr11l.€ : @qcelN .t
u1os.&n
e4osfłr
łe1
e>1os.{rrr
e>1os'tztr
eIu
ł€1 elu
eru
łe1
€uPIIIJou
{e1 eru
{81
eIu
BłsT.u
€ul?uuou
{Bl
{€l
erupert
alos'{.tl
eru eru eru
elu
łB1
łBl
{P1
łBl
łsl
EuI€1IIJou
eIu
{el
u1osńrrr
ł31
ou
łEł
elu
.łpuńkł.
e>1os.{łr € uPuuou € uPuilou eupuuou
€uFlluou eąos'(tt
elos'(.tr
€ rupeJ9 e>1os.(.rr BrupeJ9 ErupeJ9 urupart płsIu
?)Isru 3)ISrU ?Fper9
e1os.{'łl
zczsep eilnzrilnqcez eruezrntn\cez ecyołs zczsep ecyołs ecyołs elllJezlnwIĄcez zczsep zJzsep zczsep eruezmruqcBz ecgołs eJyołs
NI €I 7,1 II OI 6 8 L 9
s
v E 7, I ',::oN'
,rJl,9li&r
qc'(uf,(ce|cose1n3ereruer'rf'r1poop epo8od qcfuup J9IqZ .8.0T € t aquJ
,2nń Kzc 1nq'{4eb,|erclnez argq .l[c.{zodop g'tzcruer8oóts ,(urazoru.o3eułr.,(zrełr nue?e.r]sn1pedńzrd n ztu |azceul
14. Porównaj wyniki z ćwiczenia 13 z wynikami EDA i ana|izy drzew decyzyjnych
z rozdzia|ów 3 i 6. omów podobieństwa i róznice. Który format ana|izy wolisz? Czy w tdzisz zbiezno śćwyników ? 1 5 . Zastosuj ńzntcęufności jako kryterium wyboru regułi ponownie uruchom algorytm A priori. Uszereguj reguły pod względem wartościbezvtzg|ędnej róznic ufności. omów podobieństwa i r óznice z wcześniejszym zbiorem reguł. 16. Zastosuj miarę 1|orazuufnościjako kryterium wyboru reguł i ponownie uruchom algorytm A priori' Uszereguj reguły pod względem wartościbezvtzg|ędnejróznic ufności.omów podobieństwairóinicę z wcześniejszymzbiorem regut. r'7.Zastosuj algorytm GRI, aby odkryć regułyasocjacyjne przewidujące rezygnację lub jej brak. określrozsądne dolne ogranlczenia ufnościi wsparcia. 1 8 .Porównaj wyniki otrzymane zapomocąalgorytmu A priori i algorytmu GRI. Który algorytm Iworzy bogatszy zbi& rcgu| i d|aczego? Który algorytm jest prawdopodobnie lepszy dla tego zbioru danych? Dlaczego?
.o3euzc.{1necelllJuJ o8ełrou u>IpoJg ?9onz:,al -n1s bctlerueJo uoI]B4SIuIupV 8ruq pue poo{ .S.n '(ueco ófsruroł śzcÓnĄe|cw ?e1 błrouŁ[ołĘŁc?ferueco,ł\oJezpeueu ódru8 'trgcrorqpo qcńłrocyo>1zezldeluelulnzou |a| .9ru9e|'{łrt 9lardo1szazld euolueco |etde1luu1se|VCIS |e|o.tr199ouZce]DIS 9ełro1erfue1 -ulz eul'brqul ?u7olu elop1 .acloz,t.rceł\'(srdoouse| '{uurłrodqcfuup r|curo1dqe n1ep ,a1olu'mzo"łz -otu p1ru'ilr ,śzceuzoJ .eł\{Zou o>11Ąo1 lse! ł3! łą 9'(q .{uurłrodqc,(uep r|curo1ds1eeleporu ez ,Ńl|e1óluled .IueloJ.ĄAZ tuńlsózc 1se[ue3o15 .vzJ|.Upol^z9śqazoln '(ueco Bpo]eu eułr'{p1erqo.u?rhocgzs'kc yełr'(pr.t.rezld,[ceą {ruqcol qc'! rc9ou|up'{zrt .qcśuepticuro1ds1e.,r.r -gńsep efnuoą,{rrroru nsrdo en]epezzułreruod.ńuor]s |e18rup7 nstdo gepez op b1ruqce1buzÓłodr ture1ndodtsai VQa .qc,{uepnJoIqZńqcec e1'{.ląn 9uuz .od ,(qe .(Vog) qc,(uep Ózl1euetu|'(curo1ds1e 9€^\oso1s>1u['(urglrcuzod g e1elzpzoJlY[
't't nstdoeqepezopnlopolu rlcun;eme illurlcol t .,,.,,'
.erue,t^,{prłrezrd.eluu.^^oc"',T,1;rilj*,T ffiifrilyJ::;J$
.eu€^ĄoIIJPIuz -1eĄelp nlepou r|cenp.te DIIuqJe] dunzrrgruo elerzpzol ru& ts '{rurg 1ń. ezptrtretdI ffiZc o] .eupótrq?s e1eporuauellś4edzorllezol.knlg 99ózc.tł.ó|c'(1serYrur r >1e1 -ep,&lr śznpezceuzo '{1n3erz qcfuup t|cero1ds1a nlepou eluezoJpł\ .euozoJp^\tuelsoz ItlIuDz.rcgou|epńłr r rcgoąulure1tąpod euolueco Ktrełsoz elepou e1'tqe ,l?ull' |azszś'n|eu bzcazl tsef .IIopouIqc'&lrqzoru u{Ip{ qnl uepe| ouozroł\Jseluemoleporu sezcpod .ndu1e o8ełelcóru8tlso 1p.,r.rqc oq.ele:zpzor ulĘ łr euulł\€ruo bs rr1ruqce1 o8er9pl tuoco de]e '{cŁ|npńceplzpoqcpeu .erue?orp,trI Bluu^\olepourrurude1e'kpólruod '(uozczserur1 'eruazorpl(\ '9 .efcenpłrg .9 .7 'oItIB1!\oIapoIĄ .qcńuep eruełro1o8ńzr4.g
'qc,,,,ro seuzro i o"^"r;unTi:l::#EZE
:n14'b óts o8ecŁiezru1łrod aIIIuoJ.Ą\eu?ł\osoJsŁs er9D1.t.r9de1e nIcSeZSz ós erypup1sqc'(uup r|curo1ds1ełrgsecord {cez,,|rcpue1sWCI-dsp13 ul8o1opo1au . I nł€Izpzol Z 9e:r:oulod,|zld erqos'turezoul łef
nloporu llcBnlBfuro Dllurlcol
&&
Jeżeli ktośnalega nauzycie miar ilościowychdo oceny opisu, moze zastosowaćzasadę minimalnej dtugościopisu, Occam's razor (zasada,któĘ nazwa jest związana ze średniowiecznymflIozofem Wiliamem z Occam) stwierdza, że proste reprezentacjesą lepsze niz z|ozone. Zasada minimalnej długościopisu określato, mówiąc, ze najlepsza reprezentacja (lub opis) modelu lub danych to ta, która minimalizuj e potrzebnąinformację (w bitach), aby zakodować (1) model i (2) wyjątki od modelu.
mode|u dozadań szacowania Techniki ewa|uacii 11.2. ffi.:;..:: i przewidywania
Dla modeli szacowania i przewidywania, które stosująmetody nadzorowane,znamy obie wartościSzacowaną(lub przewidywaną) wartość! (numerycznej zmiennej celu) i właściwą(oczekiwaną) wartośćy. Dlatego tez natvalnąmiarą oceny dokładnościmodelu jest sprawdzenie błędu oszacowania lub reszty, |y _ !|. Ponieważ średniareszta jest Zawszerówna zeru nie możemyjej uzyć do oceny modelu; potrzebne są inne miary. Miarą zwykle lzywaną do oceny modeli szacowania lub przewidywania jest Mąd średnikwadratowy (ang. mean square error)(MSE) MSE :
Di1, - i)r ' n-p-r
gdzie p jest liczbą parametrów modelu. Preferowane są modele, które minimalizują MSE. Pierwiastek kwadratowy z MSE możebyć uważanyzamiarę Ępowego błęduszacowania lub przewidywania, kiedy używanyjest dany model. Jest on znany jako stan. dardowy Mąd szacowania (ang. standard error of estimation) i jest oznaczany jako
5:
"ffisE. na przykŁad rysunek 11.1 (pochodzący z tozdzia|u 4), który pokazuje Rozwazmy wynik regresji programu Minitab do oszacowania wartościodżywczych na podstawie Regression Analysi$: nafing vsrsus Sugar* &ating
equaŁion is * 2.42 Sugars
Predictor consŁa'1t suaars
Coef 59 '4ą4 -2.4L93
?he
r*gręssi-on = 59.4
R-sq = 59'6ę
s = 9']-62 ) A'}alysiś Source Regreseion
of
se Csef, ]^.95]" 0.23?6
I' 3a.Ą7 - 1 . 0 .L A
P 0 ' 0.0 0.00c
R-sq{adj} = 5?'5*
variatrc€
&.esidua1 € r ror ?$ta1
DP 1
73 76
SS 8?S1".7
6293'\ 1 4 9 9 6" g
MS 870:-.1
f 1 " 0 3. 6 ?
P 0.000
Rys. 11.1. Wynik regresji pakietu Minitab z zaznaczot|ąwartościąMSE i s
.rr1luńłtezsde1ńrueiru1s'Łn'Ł3 ćt1euouI|Iecnn,{ui9ńq,(p8zru I Buzce]n)Islse| qc'(uep rlcuro1dsąeu1'(ro31ezseu zezld uuuuo4'ilr efcuqg,(s ć?1Y\Ic'ełA -e14e4.csou'tned9ep '(qe .9'Łn ńuguurłrod poleu zblg1s1.1ną !e'tr'op1zsńr4ze1śzc ełZoĄW^ezĄ ..tłgsngZ Bluezolfu\.ŁJeuolu Mgłnzl etłre1spodeu eueuo1ńzrr9,(q ńq'Ę8oru plo3e1e4eruesrd.{zr4;'(cttqg'tse1ą u4'{ro31ezsEUvłwp eznqop1u1 :1se|rueluu1'(4 'ruopJo{eJ ur'{łrou euo8e1eą azstdtzld u4'(ro31e oBecbzcn ruoIqZ ez rrro8e1eąerałe1spodu}q .eudó1sop 1se[aru n1ec |euuerurzo e|cuurro;urqc'figq e1p .o3eu|'tmpllzm r o8ełro]set ruoIqZ ez nuepJołar rur.,{łrouóls e|nru|uzru1^,(ro81u eludó1se51.n1ec |euuertuz |ełrorc -'ołe! Łsep1bpza1 z ellezblntz bs qcńuuerurz e|ceurquro1erop1.órs '(zcn ru1ńro31e.n1ec feuuerurz (ieuełro>1g'tsu1ąs zn| o I ry| .qc'{cŁlnsrdo qcńuuerurz o ou^ĄoJBZeud$sop 1se|u|cuurro;u elzp? ,o?acbzcn nJoIqZ bcoruod e7 .bqoso b1 z lącŃnzttłrz qcec qc'{u -tn el./Kz]spodeu qc.{uup eIZEq ^\ eTuJeqo óls qcńcŁ|np|euz eru qgso qnl AgpJołeJ qc,,itrou €Ip nlec |euuarurz ólroBe1u>1 ezolu 4.Ęqeuy .qcfct|nsrdo qn1 9ełroreue3,(.Ą\ qc'(llrolcg|ełrqcńuuerurz Ig|qZZero n1ec leuuerurzo ó|cerurogulerelfu\ezńpz.eĄqcślgl1z .ł\gpJołal kolqz eznp ezp1f(ardsqc'tuup l|cero1do1e .nlec Buueiluz ełrolc9oąe| Iepontr 1se[riceąg'(ffipl nIuzpBZ rYre? .erqos '(urfturuod'kr4 .1|ce4g'tsePleIIIBpez1se[qc'(uup r|curo1dsąa|euem,orozpuuueluu^loso1sez ul(uoruqcezsznodzol |evpleqluu ezour 9ńg
'E.t Pluppez opn|opolu llcen;eme IlpBłuńsep illuqcol t :...;:., .qcńłrorcg[ń,Ą{ qcuuoJneu qcr11s'(zs.t od łropó1q ł\gpJp€^DI '(urns eruełr -ozll?Iulurruz 1se|ure1ec.nnou7.|az'(tod łr oc SSI^JłIuZcł efquezerde; nruezr1q,.(zrd amorcg['{,n duornau dprols:
..(elc9|,{.tt_ euełrrlezco)
j
j
: ESS
:asntr Z blmzblnod.'(uaco órerul '(ur9rllł\oluoLeIeVpZoJ M śze1 evpl.9ll9eJło Łzsnru oaezc,t.repeqqn1oaełroseuzlq n.,,alqo,. "'::L"#ł:;''#l* -vpewp z lcredsąg .yen1,lptur.clzrd rnepótrqI nlepou blcgouozo1z'{zpóruiod srurordruoą lsel ,(uqezrlod qc,tutp r|cero1ds1ełr r |euzc.,!s'$e1serzrpue łt .qceurzparzpqcńuur łr r .rupezrdod śuozo1z zlu ev qc'{uuerurzqc,'(u 1se[ łe[ łur |e1zpmq 1eporu \el.qc^'(ct|nsrdo .n]łundo8eupel elt.rp -Z9J ulalso ęlellrl'ez |eu]or1o1erłr r|ser8er Iapontr:BuecI 1sa|4eupe1 .9t0.t - s :0I.' .eIeZ op 'tuełroąnperzłvtsozeruułrńprłrazń pb1q'(rremocezso |elnl ru1unsdreu tu1or1o1erłró|ser8er zazld bueulńzĄo s tlc9opełl z urue.tfprłrazfi pb1q .eluezorpw ńuełrocezso uel ^{ur|Bu.tł.oJod fqu ,Kznp 1śqz1se[eruerrr,{plnezld ?e,Zet^zor .4eupe| i?lzperłrodpo pt1q .ezou Łupel r ?cbfnsrdo tuuerurz ?upe| oą1,$ z .,isord 9ńq eluulcerzp 1se|1eporuercsr.tł,{zcg.o8ezc.,rrepeq qn1o8ernoseuzTqruualqord łr91ecpo ńz -eIeZoL BIueZoJp^\op 9;iezrd '(qu .'fiqop eruZce1ąsoplsof uel >1ru'(.tńz3 ćnlepoul .n14und 791.6 lsoufłr n;rllncIc'o1ru'i!\ezel.ĄA€lspodeu qc'{zcłr'Łpo lc'ou€1Y\ eruełrńprłrezldop rfser8ar nleporu o3e1 nlc.,(zn Kzld erlr-mśprłrezrdpt1q '(uełrocezso ez .elnzuąsłr z9l|6 eung.I s csouąv\ .etser1'(.tr3u luełoł evozceuzez bs Z9I.6 : s I : asl^trolulrr.glez.qc'tłroruepurus łr941e1dqce|ezpol LL ł\ n.r{nc Ic9ouB^\uZ łB|.6.€8
210
W tym rozdzl'a\eomówiono nastgpującepojęcia, metody i narzędzia oceniające: wspótczynnik btędu,fatszywe klasyfikacje pozytywne (FP), fatszywe klasyfikacje negaĘwne (FN), dopasowanie kosztu btędu,pr1yrost, wykresprzyrostu, wykres zysku w kontekściemodelu C5.0 do klasvfikacii dochodu z rozdztałl 6.
(FP)' pozytywne ?l.,.',|1.4. klasyfikacje falszywe Wspólczynnik b|ędu, (FN) negatywne klasyfikacie fafszywe Przypomnijmy sobie, ze w rozdzia|e 6 zastosowaliśmymodel C5.0 do klasyfikacji, czy dochód osoby był mały (< 50000) czy duzy (> 50000), na podstawie zbioru zmiennych opisujących, które zawiera|y zysk kapitału,Stratękapitału,stan cywilny i tak dalej. oceńmy wydajnośćmodelu klasyfikującego drzewa decyzyjnego za pomocąpojęć współczynnika błędu,fałszywych klasyfikacji pozytywnych (FP) i fałszywych klasyflkacji negatywnych (FN).
Rys. 11.2. Macierz błęduklasyfikacji prawidłowych i nieprawidłowych
Clementine dostarcza macierz poprawnych i niepoprawnych klasyfikacji wykonanych przez algorytm, nazywaną macierzą błędu klasyfikacji (ang. confusion matrix). pokazaną na rysunku 11.2. Kolumny reprezenĘą przewidywane kategorie, a wiersze reprezenĄąwłaściwe(prawdziwe) kategorie każdegozf5 000 rekordów. Są 19 002 rekordy, dla których właściwawartośćzmiennej ce|uincomejest ( 50 000, i 5984 rekordy, dla których właściwawartośćzmiennej celu incomejest > 50 000. Algorytm C5.0 sklasyfikował f0 I6f rekordów jako posiadające income ś 50 000 i 48f4 jako posiadające income > 50 000.
'(.wnp .dKzlĄ u11|' o' ' Nl1dJ ol ;9ouzcqńcadsu ?lolnzJ" 'e.lotu>1g,(sep1 lcsou,t.ru.ldod EIuPI'eąo op lcsouzcgńc.a, . ,,;o,j[*, n',,,oa ..J^ń,n t, 1.1. ",t',rp..(.runp.dizlĄ (aarysod aną.?ue) uu.,rł'{}.{zod ulce1gdsup1e.tłrzpłrerd01 dJ B ,(al't1o3auanl1 .f|J2) uu.tłfleteu e|ce1g.{s .@l,t1lsodasp{.8ue) eurrrĄfzod e[ce1gfse14 enśzs1e1o1 ,(al1o?au aspt .?ue) -EpI B,Ą\Izp^euJd o1 NJ 4ge uu.tt'ńle8eue[cu>1g'{sup1 e,u'{zs1e;o1 51g .|euzc.'(zó[o13ue .{rruBPlueutouzbzpot4cod e1oqur.(sa1Ó|śzl4,
.npółq JBu./KgJodŁ8our '(c'&rleuu .Ng ct|nso]s {Iu7Błs.ĄĄ dd I łIu7ełs',!\ łIuu^Zcłgds.Ą\ .Plsru o)p| el^\Ic93ł^lolu órs o8ect|e?erqn pgqcop '(urefru1g'(suHse? Zlu .plos',fuY\ o)pf eI,ĄĄIc9?łA\eIu óls o8ect|e8erqnpgqcop ,{rneiqgńffipls aZ .euqopodopłreld |elzplvq śzel €^lp p€uod tsef .o8eu|,{ZśJep E^ezrp 0.9J lepou fuceqo '(ue|nso1suz śpBuep7 Ł7o1 .86€ Z .0 !.LY : dd łIuZBłsM L9II
. 6 n I I . 0 : Z 9 I O Z_ Nc łlu7DIS^\ LI,Z ńureru !ein1 .1|ceąg'(supqc.{u -'t'Ę'tzod qcDBS^ZsA Óqzcq zezld d,I óqzcq cr1arzpod ize1eu ,(apl aąysod as1nl .?ue) .eruqopo4 .r|cu1g'{sePlqcruł\&€8eu qcrr11s'(zsnÓqzcl1zazld dd ł|u7alsh\1veIeUZ,{qu ,,(auol aruw?ou aspl .?ut) Nd óqZcII cqerzpod śze1eu Nd łlu7als n 9vepuz Kqy
.06€I.0:
0009z LSII + LITT
: npółq4luu'tzc1gdsłrf]lłro>1pc
'(rueur [e1n1 .^\gpJo{alqcrr11sńzs.tr Óqzcązazldbuo1elzpod 4g r 1ig turns $er (aruJnl'ła .7ue)npółq >1pu'(zc19dsn|ecgq qn1(ałołJaJJa nOJaA'o.?ue) npÓłq r1pudzc19ds.[ f|!^ĄoĘłBJ .'(u.uń1e8eu rcgo1srłr,(zcezr .tł]se[ e1e,śunś1śzod o1e|,(uułro>1g,(se;ąs p1soz '{-l9lą.pro>1er e|quezerder dfl .(dc) qcfu.t.r't1 .pgqcop -fzod r[ca1g'(sep1qc'itr'tzsłel córrt '(truur otrurur lcgo1sr.łł.'{zcezr łr lsel L9I1 {B} .I!ca{g,(sep1 .fu,t.t',tu3eu qc'(u.tlĄKzod nz8, Z.ńułrńł'tzodrcso1srłr,(zcezr .t.t. 1se|e1e l9I I p1soz '(l9q .pro>1er oąe| '{ue.tro>1gńse11s e|n1uezarderNd luełez .(saup?au aspl.?ln) .pt1q ouorqou qc śl IuBFBłgfsu14 ;ur'fuMzs1ugqcńue.tzvu ołe$oz rNc !ru'{ul.r,(1u3eu -91ł^\.r|ce>1gńsu14 qc'tułr'fie8erLItz a1.aunftKzodts 669 66 9 < aruolule|cuąg'(se1ą efceągńszpl z9I Ozuawz vzyv I auu&rl3au ?s 000 99 } aulocul (eruełr'{prłrezrd) 'npoqcop o8e1erunpołrod z r21zcśzod BIueIeIZpnB^\oulpoevpóq?rzparłrodpo ?u19,{ruop1|ceulro; -ut qc'(uur n>pJqnpo^\odz ez ,Kulz91u7.(nzsnrruuecsluńuozczsordn ul& .tr) pgqcop '(1euruu npó18z,t.rsz .erqoso rnzcśzodBIueIeIZpnllł\gulpoBlrug rc^\eluod .Łu,t.l'{]e3eu ezeuelewnlse|000Os > auoJute|ce4g(sery.elqoso leuemfłedzolrazcśzod '(pe1t.r qelzpn Zal^eluod .Łu.u'f1fzod ez enevenn 1se| 00009 < auuoJuru[ce1g'{se1; eł;rugt .00009 < 1se[óązcńzodo óts o8ecŁiu8elqnpgqcop,,(zc.eu€ ^ \oselelulaz1se|ergp1.ąezc -Kzod tech|elolzpn'(tu:g u1peuozpełrordazld e1n]sozEZI|vloee1 ez ,ńanzgłez,ZenI .000 09 < aulo)uI ect lepursodo1u[ łr9proąer z9I 07 LpKl z LI tz tre.t.roąg'{seqs .pgq3op .000 u4'fio8p eI'iKIJ'€ł,ĄA,eIu ,Ęuu etłucg€ ł &\ € I u 1(gpJo{eJ łBupel LI sn8 0s ..ĄĄgpJołer } ołu| u4'tro8p zezld śuvtzptlriazld1se|pgqcop qcfu9q elp Z9I Oz Z
n2 ńżnych modeli' Na przykład model drzewadecyzyjnego C5.0 możebyć po. dokładność równany z modelem drzewadecyzyjnego CART lub modelem sieci neuronowej.Decyzje o wyborze modelu mogą być wtedy wydane na podstawie tych miar oceny. Na marginesie,w żargonietestowaniahipotez, ponieważdomyślnadecyzja jest taka, ze ubiegającysię o kredyt ma maty dochód, mielibyśmynastępującehipotezy: Hs: income< 50000, Hu : income > 50 000, gdzie Hg reprezenĘe domyślnąlub zerową hipotezg, a Hu reprezenĘe alternatywną hipotezę, która wymaga dowodu. Fatszywa klasyfikacja pozytywna (FP) byłaby lwazana zabłąd I typu dla tych załozeń,niewłaściweodrzucenie hipotezy zetowej, podczas gdyfatszywa klasyfikacja ne7atywn(ł(FN)bytaby lwazana zabłąd II typu, niewłaściwe przyjęcie hipotezy zerowej.
ie kosztublędnejklasyfikacji 11.5. Dopasowan ffi:::.,..:..: rzeczywistych strat w celuodzwierciedlenia Rozwazmy tę sytuację z punktu widzenia firmy pożyczkowej. Który błąd,FN czy FĘ będzieuwazany zabardziej szkodliwy z punktu widzenia ldzie|ającego pozyczk;:'?Jeze|i popetni błądFN, osoba o dużych dochodach ubiegająca się o kredyt dostanie odmowę pozyczkj: nieszczęśliwy,ale nie bardzo kosztowny błąd. Z drugiej strony,jeżeli udzielający pozyczk;lpopełnibłądFĘ klient o matych dochoze dach ubiegający się o pożyczkędostanieją' Ten b|ąd znacząco zwigksza moż|iwość, jestbardzo d|audzie|ającekosztowne co pożyczkobiorcanie wywiĘe się z zobowi ązań, go pozy czkę. D latego tez, ldzie|aj ący pozy czkę b ędzie uw aza|FP za b ardziej szkodliwy typ błędui chciałby zminimaltzować wskaźnik FP. Analityk dlatego dopasuje macierz kosztów błędnychklasyfikacji algorytmu C5.0, aby odzwierciedlata straty udzielającego pozyczek. Ptzykład takiego dopasowania jest pokazany na rysunku 11'3, który pokazlje, ze koszt FP wzróst z I do 2, podczas gdy koszt FN pozostałrówny I. ZatemFP jest uważany za dwukrotnie batdziej szkodliwy niż FN. Analityk moze eksperymento. kombinację wać z róznymi wartościamikosztów dla dwóch typów błędów, aby zna|eźĆ najlepiej pasującądo zadania i danego problemu biznesowego. W jaki sposób dopasowanie kosztu btędnej klasyfikacji wptywa na działaniea|gorytmu? Czego się spodziewasz? Który wskaŹnik zmaleje, a który wzrośnie?FN czy FP? Czy masz intuicję, co się stanie z catkowitym współczynikiem błędu? Będziemy się spodziewać,ze wskaźnikFP zma|eje,ponieważkoszt zrobienia takiego btędu zostat podwojony. Mniej btędów FP oznacza jednak prawdopodobnie więcej FN. Niestety, catkowity współczynnik błęduprawdopodobnie wzrośnie,ponieważjest więcej negatywnych przewidywń niz pozytywnych, co daje większą wartośćwskaźnikowi FN podczas obliczania całkowitegowspółczynnika btędu' Algorytm C5.0 zostat ponownie uruchomiony, tym tazem z dopasowaniem kosztów błędnejklasyfikacji. Wynikowa macierz błęduklasyfikacji jest pokazana na rysunku 11.4. Zsodnie z oczekiwaniami, wskażnik FN wzrósł, a wskaŹnik FP zmalał.Podczas
.Nd [ecóIł\ urclez B .I[cBłgńs€pI qcfumr1€8eu |ecótłrrqor o3e1]surruuz.npsoą o8ezsr1ór.tnpołrodz eułr'$fzod o1u|'(pro>1ar e|n1gńsep erqóqceru rufro81y .€uec I1se[ąeupe1.EłeIeuIzdl nIIu7DIs^Ą99oue.ł IueIueł\DIeZco z arupo8z .Nd u>ITu7e>IS.ł\ 9'ou€.,vr ZIUvzsz|u lsa| dg DIIu7DIs.ry\ ?!oue^\ IileZEIul'q ag pułqou€rułodod lercgózc elu]oJłn'inpolupazrdod.{p3 t[cu1g'(se14|eupó1q'Ą-olzso{nrrrerYrosudop od r|ce4g'{sep1npółq zJeIcuIĄ .'.II .s'(u
dd npóIq npso1 o8ezsz.{,t\uluelpelcJel^\Zponlec ,trr.Ą\91zsoł,lznlceln erue.tosudoq .€ . II dg lzsoł
.s'(u
NLI lzsoł
wskaŹnikr"N = #& : O,1'59f wskaźnikPN = #
: 0,0928
0,1149, wzrosłoz wcześniejszego 0,f398. zmala|oz wcześniejszego
Niestety,catkowitywspółczynnikbłędurównieżwzrósł 0,1390' : O,I5f wzrósłz wcześniejszego btędu: EW współczynnik ca.łkowity Niemniej' wyzszy catkowity współczynnik błędui wyższy wskaŹnik FN są lwazane za wskaźni,,dobry biznes'' przez adzte|ającegopozyczki, który chętnie redukuje wartość ka niedotrzymania zobowiązań',bardzo kosztownego dla firmy. Zmniejszenie wartości wskaŹnika FP z23,98vo do 9,28?o z pewnościądoprowadzi do znaczącychoszczędności w firmie pozyczkowej, ponieważmniejsza Liczbaubiegających się o poŻyczkę,których nie staćna jej sptatę,dostanieją.
ffi', 11.6.Analizadecyzjikoszt/zysk Menadżerowie firm mogą potrzebować porównań modeli wykonanych w kategońach analizy koszt/zysk. Na przykład, porównując oryginalny modęl C5.0 przed dopasowaniem kosztów błędnejklasyfikacji (nazwijmy go modelem 1) z modelem C5.0 z dopasowaniem kosztów błędnejklasyfikacji (nazwijmy go modelem f), menadzerowiemogą woleć, aby poszczególne współczynniki błgdu,FP i FN, zostały ptzeŁozonena dolary i centy. Tabela 11.1. Tablica kosztów/zysków dla każdej kombinacji poprawnej/niepoprawnejdecyzji
TN
< 50 000
< 50 000
TP FN
> 50 000 < 50 000
> 50 000 > 50 000
FP
> 50 000
< 50 000
tsq
nominalny koszt zw iązarry z procedurą odmowy udzielenia pożyczki *200$ przewidywany średnidochód z odsetek nominalny koszt zw iry'anY z procedurą odmowy udzielenia pożyczki
s00$ średnikoszt niewywiązaniasię
z umowy, uśrednionypo grupie < 50 000
Analitycy mogą dostalczyć porównania modeli w kategoriach oczekiwanych zysków i stratptzezpowiązanie kosztu i zysku zkazdąz możliwych czteręchkombinacji wtaściweji ńiewłaściwejklasyfikacj i. Załóimy na przykład, ze ana|itykprzypisuje war. tościkosżtów/zysków pokazane w tabeli 11.1' Koszt f5$. zwtązany z negatywną decyzją odzwiercredianominalny koszt związany z procedurą odmowy udzielenia pozyczki' ioszt ,,_2O0$'' jest właściwieprzewidywanym średnimdochodem z odsetek zebranym od osób, których dochód jest faktycznie > 50000. 500$ jest średnimkosztem niewywiązania się z umowy, uśrednionympo wszystkich pożyczkach dla pożyczkobiorców,
.LI.t: u1pńuozrerur 1se[łrgpro1elvz1v 1sorfzr6.l|cuągńsep1 96tT,,O/zO91',gule1vz qcńunł$ńzodeznlqz ł\ yeg€ł qc,(ułrń1fuod >1e1espo o1et7g91,g : vz8vlL9g€ luuu e|epol .00009 < 1se[aułłoJul99ouułr €AIc'€ł1Y\ l1śzc,elueger1eu.t'!ńzod o1,tłgpro>1er 1er qc.{uepaZIoIqzurńtruc^\yeg€Jt qc'{u'lr.{1'tzod 1uecord
- tsottztd
l|cu1g'(sup qc,(u.t'!'{zod azrclqz llr yaguł qc'tułr'$'(zod ]uecord Iłc^uBpezrolqz w^ł -€c .,!\yeg€4 qc'(ułr'!'{zod zazld śao1elzpod n1epourrlce>gfsu1ąqcńułr'!'(zod ąe1espo yeueł qcńułrĄ,(zod ezuol.qz.ĄA oĄe|(1łl.8ue) Nordz.rd ńule|nlugepz .o^\oIJsoIT 4e1espo 01€I9oĄo nlsor,(zrd ercólo4 .?,ołBco4u| uuenro1ąer1 qc'(uup Ezvqz|U o,VeaaĄ*qc'(u.tł'$ -'(zod 1e1espoKzszśmeul3J9]ł .ódru8 (v.lt l Z.II qoalunsd.reu 0000s < uuun1oą ) qce[ca1g,(se14qc'tułr'$'(zod n 9e.uo>1u'(1ueplz ualul^\odr|cap'tse1q lepoul oo:o . .AZsZA'ĄĄ z .'fusleruuroznp '(pe1łr erzpóq o?e.tł.o3ul1a4reur nur 9śqazouslzpelłrodpo ąruuńzctrgdsłr -ur8ord 1zso) .p9qcop .{znpecŁ|epulsodo>1e| qc'tuełro>1g'(sep1s qgso op Ólcelr8e 9śzclu -er3o r .pgqcop śznpśtrercl'tpóqńqoso elo1ą.uruu,t.{pr.tłezrd op Iepou cułlopnqz .qoso 'ZpeIł\ erdn.r8o epersodeulrg tr9ł1 ,buzcgulBoanepó|ceru"ro;ulce,tosolsuz |a1de1ozno -odpo ńtreurblzul I ou^Ao]Zsoł Łs 'tzu'{1e[cluT eugcezs,/Y\od oDIBJ .pgqcop ryuu'(zc1gdsłr qcl 3u npó18złr Zoq q9so $sq tpc qe.to,o1r8u ńcłrupezrds nso1zsezld 16 .[e.to1'(pe.n1 'tpu>1|ełrou'tteld|eł\ouŁłro8ul1e4ruuróruedurn1 tuełrorerr1cńz'lorvgs,(qu .qcupoqcop qc'(7np o q9so Ł|cu1gń1ueplPu?.Ą\oseJoluruz lsa| eno4zc(zod E:ulJvez ,śul491e7 'npoqcoprfcelg,{sup BIp 0'SJ llepour .ulcófod a1 Kuepeq7.zaqzeJo r[ce4gńsu1{nlopoiu enruzpłrerdscŁ[nnuń]uo>1 ulelcśzn z rzperłrodpołrgąruu,.fuctrodsłl ulueułrgrod op śzbperył4.n8uqeąruur Kulzpevp Z e|ul?u -t8'fuoru,tcbzpoqcod.ruercó|od$e| (1łl.8uu) }so.rfz.rd.l|ceąg'(s€Pl łepou lc9ou1ep'tzrd eileu,tgrod r '(ueco op r|cenpłre rul€potoru rurduzcgur8 bs nąsdz 1 n1sor'.(zrdńse"rą'$6
nłs^z ńse4ńm ! nlsot/lzJd ńsel1ń6.L.|| ....m
.euzc'(łtq o1fq '(ul.rg o8ełloseuzrq nure1qord BIp oc csoue,/Y\ bzszlu eu zśp?.I lepou zlu 'Łsde1 1se|.Nd łIu7DIS^\śzszś,n l ąg uąltl7e1s.tł' npó1q >1ruu'tzc19dsnfizszślri'łeruu7,Iepoul vapoq) ó'(tuJU nseJe ul e1p cśzceuz azoul r[ca1g'tse;r1leupó1q^Aglzsołeruułrosedope1sorda1r.ect|e,ter.ulnpzo1 lsa| elu Kz3 .$0s9 € 9 I : $009 96I _ $osl 6żE : IcsoupóZczso]Zsoł'(uerrrocezso o1 I nlepoul 1SBIIu€ZZ nlepotu BIueZoJp./V\ z lcsoupÓzczso }Zsoł,(uełrocezs6
.$00s + ($oos)avz + ($sz)tsss+ ($9z)g9t lzsoł s6I: (s0Oz_)€ t żz 8I: I nlepoul .$09I6'€ : ($00Z-)L99€ + ($00s) tstt + $sd tttz + ($sz)9'8 LI: I nlepoulzsoł
:z I I elepou ceułrorod'(uozour I.I I {oqą Z ł\g]Zsołbcowode7 .e'topep1,{zrdo>11'(1 Łs 1 1|sn1 -s'{pt|u8e1pod|urnl euesrd'tzrd śqzu1ouoDeDloarc9lłr,Łc6 ..{1uu1se|pgqcop qc'fi9pl
Przyrost jest funkcją rozmiaru próbki, dlatego też musieliśmyokreślić,ze ptzyrost równy 3,I7 d|amodelu Iby|mierzony dla n : 48f4 rekordów. Podczas obliczania przyfostu oprogramowanie najpierw sortuje rekordy wedługprawdopodobięństwasklasyflkowania jako pozytywny. Następnie przyrost jest obliczany dla każdego rozmiaru piOUtl od n : I do n : rozmiat zbioru danych. Wykres jest tworzony jako wykres przyrostu względem percentylu zbioru danych.
Rys. 11.5. Wykres przylostu dla modelu 1: początkowo duży przyrost, potem szybko spada
Rozważmy rysunek 1i.5, który pokazuje wykres przyrostu dla modelu I. Zalwazmy, ze przyrost jest większy dla mniejszych percentyli, co ma sens, poniewaz dane są posortowane względem prawdopodobieństwapoprawnych trafień. Mniejsze percentyle mają większy odsetek pozytywnych trafień' Gdy wykres przesuwa sig z lewej do prawej, poźytywne tiafienia zostają ,,zlzyte,', a odsetek miarowo maleje, az przyrost osiągnie w końcu dokładnie 1, kiedy to caty zbiór jest tozwazany jako próbka. Dlatego tez, d|a kazdego wykresu przyrostu, największy przyrost jest zawsze otrzymywany dla małych rozmiarów próbek. Teruz 48f4 rekordów reprezenĘe 19,3 percentyl z wszystkichz4 986 rekordów, Zauważmy,żena rysunku 11.5przyrostna lewo od 20 percentylajest blisko 3,17,jak obli.
-śzl4c(znp o qgso qcry1sńzsłrobzg ołoĄoop ńrugqre1opeZ ,?ewazpods óls '{u9ńq113oru .(OZ : .{ą o697 eul93 ńurgrle.tłolr8e ń1s11 ez,ślnz91uz LMgĄs cblqou 1ń1uecred) lezsuu .ezsf1d ..ou1slln,, -'(z >1u1 ezsql1? euu,uore;erd1se| 'QYro1s śze1eu elu ? ser4ńłr 9e1śzc op '(uor1s|e,ue1z órs tueruelYtns o,t.t,oludo}s eudó]seu e .|e,tł.erd rurfuu1 .órs e|nułrgr,&u. -ezld z zeIM elselz1(^oluołS exśzl>1uur98qcńr9]ą uu .zvrgąs'(z'(seą'tłr 9erzprm ńqł -alcqc ńc'$11uuy .n1sor.(zrderserr1'(llr €u I - LsolKzld nuq |eurotzodop uuzcr8o1uue1se[ z nlsor.{zrd łrgąs'{zerserąfłreu upuo?erq .9.11 nąuns'(reu ńuezu1od1se|9'1 1 m1uns,{r qn1 n1so.rdz.rddse.rr1'{'t.r '{sa.rr1,{'t.r ou€,t\ol ureserą.{łrz Kllezblnz n1s'(z serr1'(16.łr9>1s'{z -nunłs o>1z|.|euułrolnlun){S er.uIJoJ1Y\ouel^lelspazld olsózc ts n]sor'{zrd'iser4ń16 I nleporrre1pnqs.(zser4'$6'9'II
'sdg
szJEluaŁrlox ; rb|E&A '?ł*9,.,,. au6}u| lĄua'l**
c&l ,w6*ar**)
n&
fi8
*Ł
*g
&s
frb.
0fl
*z
&'
*
I
*
auJ&rut
f
6
E
& s
B'*ćpa ;i l'l{{i7j&
$au*$Q
.IĄJIU po Z nsocłns rru€Iue^\Iłezcorur'funpB .t.rgDlutuoł o8apzuą euut lse| euu3uul'(16.yeguJl qcńułr'! Kqzcl1|eznprueruezblt*vuńzpórurod :e3e,uou,t,r9r -ńzod qc'(uep [ecór.t.lrur .rur'{ułr'(1(zodetc(q órs e|e1s.{zsleruurruń1.'(ure3eurń.t.r ąe1espo euełro}rosodts euup Zu,ĄĄeluod'9.Iołoło op ńq1pedslsordzrd op lc9ouuopIs8ntrps,t.r .,łrgpro>1er o699 Kq1e?eur'fuvr qeiord qazet.ńuorls |e18nrpz '9.I1 nąuns'{r qcr11sńzs,t.t, uu oueze>1odĄE| ,I,t o1o1o '(u'tłgr..(zs1órłr'(q1ńqlsorńzrd ..t.rgproąer79 euqopodop .neld |elzpmq|euńq1ełrourleqon1u.{r',{zcłrepuqqe|ord Zselu|Ieze1.[ez'{',r.rod '(urg1ńzc 'L:lZ
=.)Ą f 15 1
0.5 percenryre Rys. 11.7. Połączonewykresy plzyrostu z modeli 1 i 2
skach z listy. Czy podwojenienaszegowysiłkupodwoi nasze zyski? Nie. Agitacja 40vo listy pozwoli nam dotrzećdo około 85% osób o dużych dochodach. Po przekroczeniu tego punktu silnie działaprawo malejącej odpowiedzi' Wykresy przyrostu i wykresy zysków mogą być równiez użyte do porównania wydajnościmodeli. Rysunek 11.7 pokazuje nałozonewykresy przyrostu dla modeli 1 i 2. Rysunek pokazuje, że gdy dochodzi do wyboru modelu' dany model nie musi być jednakowo preferowany.Na przykładdo 6 percentyla wydaje się, żenie ma widocznej ńznicy w przyrościemodeli. Następnie,do około 17 percentyla,model 2 jest preferowany,co zapewnianieco więksZy przyrost. Następnie preferowanyjesł model 1. Dlatego, jeżeli celem byłaby agttacjamniej więcej |7vo osób z wysokimi dochodami z górnej częścilisty, prawdopodobnie model f zosta|by wybrany. Jednak, jeżeli celem byłoby tozszerzenie inicjatywy marketingowej do f)va lub wigkszej grupy osób z wysokimi dochodami,jest bardziejprawdopodobne,ze wybrany zostałbymodel 1. Pytanie o wielokrotnemodele i wybór modelujest ważne,co zostatoomówione dokładnie w źród|eI.
,i;, 11.8. z modelowaniem modeIu Polączenie ooeny W rozdziale 1 w graficznym przedstawieniu metodologii CRISP-DM do standaryzacji procesów eksploracji danych była narysowana pętla sptzęzenia Zwrotnego pomiędzy etapami modelowania i ewaluacji.W rozdziale 5 (rysunek 5.1) przedstawialiśmymetodologię modelowania nadzorowanego' Gdzie metody ewaluacji modelu zrozdziaŁu II pasujądo procesu? Chcielibyśmy, aby ewaluacja modelu była procesem niemalże ,,automatycznym,,, przeprowadzanym do momentu, gdy utworzony Zostanie nowy model. Dlatego w każdym punkcie procesu możemy posiadać doktadną miarę jakościbiezącego |lb dziaŁającego modelu. Dlatego teżsugeĄe sig, aby ewaluacja modelu zosta|astosownie wŁączo-
óIs ezoul .euedo ?s qc'tuep l|cero1ds1e.{po1eru >Iąelndąsf'ĄA e? .eplf,ĄĄzew?ewepś.ĄA śzĄet qc'figq eu .ńłre1spodeuzcń]eue]eru óls acbluzgl ozpnq,{ue1ołr'Łrd '(pg . 4aa łt-l ad-s.łnoq ZIu ezs|eluzen .Icgou[e1o4 '(rufi-lo81y o leurrred op elu'oupo ólsb|ezpe?z 1se|runu-uolpJnpa aZ ł€l 'buueglzbuzun o1e|a3o upłro>1g't1uepz €.ĄAouoJneu9ols o{I'q l Łuuorurz buzen oąe| ras qnl SSDIl4Foa,ttrełro4g,$ueplzelu 't9u4d;o31e Z uepez . .sso1-1oltdtlc o1lzpezldśn ai n atzp? .tłtouoJneutrcers ezod .euueTulzezs|aluzemteao4ets1aan-lad-s.moql ssoy-plldoc ,uto3 ,sn7n1{10ilJ0htr -7n11dnc,u'tn1l-uot1ncnpa ,.{zr1epps'ks16 o tfnąg,(1uepl ńul1&o31e :alcl.Ą'rouerru u .rurńct|ru1gńszprureur -fro81e rur'tuqórpor.ulz{1 ńzpórulod ozqsyelqopod eznp 4uupei1sa|.qc,(uuerurzqcśuzen rcgoufeyo4A\ rcgouzorqz feuluepreru eru zercorlJ'o^\ouoJnau rcels I g'gJ IUVC url,fi -o?1uzezld.orupermodpo .euozpJel^$sołB1SoZoc .npoqcop óicagńsup1 uu (rcgouzełr 'tzs1ólnleu b!t:l z'tI 1oqą ,ĄĄeuBJqaZ urepó18złrpod uzsqru8 z eueno4pbzrodn).trń1d.tr euuerrrz ez'bfnze>1odU'L \ 6'9 '8'9 nluns,{-r'rynpo qcknp tlzeq e1p pup1.{zrde51
utoSltltdoc
utoS-1o1tdoc
ssoyy4tdoc
u)nu-uolto)npa
sniol{lDlrroW
tlaau-tad-stnoq
wnu-uouD)npa
snłD{IDLLJOW
tlaau-nd-unoq
ssol-loudnc a3o
0'93
>1aau-tad-snoq ssol-7oltdoc utoB-1o1tdoc unu-uolłDcnpa sWOł{lotuDW
.tuvJ
bryrouorneu9els I 0.sJ ;1y3'{u1flo?1e zazld euerrto1gń1ueptz 'npoqcop r[ce1g,(se11BIp euueruz ezsferuzu.nle51'Z'II EaqBJ
.qc'(uupr|cero1ds1e 11eporuqcluzgl śdru?z n.o4tutu D,oufalqz 9u1nzsod śze1eu.oBe] ]serure7.qcŃnp l|curo1dsąealzpoletu leupe| uu etu'(p -ei 9u3e1oduerurłroderu >1'!qeue.ełrq?ouro1 1se[oą1'! ,'(pe;4in1apoturueroq,{.tz 1se| aluqopod .łrgzpós ru1p1udru8 1se|euułr''fiołrodn1ac ul't lA. .o8erzpós o8eupe| oą1.{1 zezld ślle:elq'{.u 1se[elu zlełnzf1 '(zsde1[uuerzputdurqouu ur'{łro;n8geI^usJ?I^\łĘn
.6.t :mgłIuńm ńdnl6o|uPfnosolsPz 990uze!qz t .....'... lIopolu .nlepou o8euup pBł\Bluezpo?e1zo?azs -de1[eu ^\ '{,,vrrcge1łr lłro4,$11eue nlec ?EzeĄslr.'{pe1łrb?oru ec?|urueco'{.lurure1 łeuruoD1 .Nc ''tłg1sfz '(serq,{łr n1sor'Łrd '{seq,fur 1 9'furouqsl npółq4uudzc19dsłr ,Ąrłro>11uc łlu -7e>Is.ĄĄ z ńlnezoul.ruńcb|ntse]eZIoIqZuu npótrq4ruu'Łc ąg ąru7e1słrg(zcqqo brc9o.tl1u1 ,pup1(zld e51 .o8eu .1epour '(p3 't.tnosuzcur,{1 ^(ure|nłrosedop 1gds,t.rłB^\ozq€ulur.u'(q€ -|'tcep11u'tr o8ełro]se],o?acbzcn ruoIqZ o8epze>1 qceleporu eubuozpen z qc'{uozro.tł1s -oldazldI 9 o|evpzol łr tuorłrąspezld o?auouo.tozpDuDluDfuoppol,tl)t?o\opo1au'tneu
przekonywająca zgodnośćmiędzy nimi odnośniedo klasyfikacji dochodu. Pamiętajmy' że CART opiera swoje decyzje na kryterium ,,dobrocipodziafu'' @(s|r)' że C5.0 sto. suje podejścieteorii informacji, a sieci neuronowe opierają swoją naukę na propagacji wstecznej.Mimo ze tszy algorytmy reprezenĘą różne podejścia,to mówiąc najogólniej, potączy|y się, dając zbieżność wyników. W ten sposób modele wzajemnie sie potwierdzają.
Literatura ffi*,11.10. [1] Daniel Larose, Data Mining Methods and Models, Wiley-Interscience, Hoboken, NJ f006.
cWGZENia ffii$11.11. Cwiczenia praktyczne W poniższych ćwiczeniachvyj zbioru danych churn znĄdl1ącego się na stronach internetowychksiążki. Znormalinlj dane numery czne i rozwiąż problem skorelowanych zmiennych. 1. Zastosuj model CART do przewidywania churn. Użyj domyślnychkosztów błgdnej klasyfikacji. a. określ wskaźnikFP' b. określ wskaŹnik FN' c. określ całkowity współczynnik błędu. modelu (1 - całkowity wspótczynnik btędu). d. określ całkowitądokładność 2. W typowym modelu rezygnacji, w którym wstawienie się za potencjalnym rezygnującym jest stosunkowo tanie, ale utrata klienta jest kosztowna, który btąd jest bardziej kosztowny, FN czy FP (gdzie pozytywny = klient przewidziany do rezygnacji)?Wyjaśnij. 3. Na podstawie odpowiedzi na pytanie w ćwiczeniu 2, dopasuj koszt btędnej klasyfikacji dla twojego modelu CART, aby zredukować Iiczbę kosztowniejszych błędów. Uruchom ponownie algorytm CART. Porównaj FĘ FN i całkowity współczynnik btędu z wartościamizpoprzedniego modelu. omów róznice pomigdzy róznymi wskaźnikamipod względem kosztów firmy. 4' Wykonaj andrizę kosztów/zysków dla domyślnegomodelu CART z ćwiczenia I w następującysposób. kzypisz koszt lub zysk w dolarach kazdej kombinacji FĘ FN, TP i TN, podobnie jak w tabeli 11.1. Następnie używając macierzy btędu klasyfikacji, znĄdź przewidywany koszt ogólny. 5' Wykonaj ana|izękosztów/zysków dla modelu CART z dopasowanymkosztem btędnej klasyfikacji. Użyj tych samych wartościkosztów/zysków jak w modelu domyślnym.ZnajdŹ przewidywany koszt ogólny. Porównaj z modelem domyślnymi sformułuj rekomendacjg, który model jest preferowany.
'urnq) rlce1gfsep op 1ep -oruqc'{zsuu9'ou}ułqepel 99o>1ut bq93o łrgulo.oflufłrezszdrvrod eu npÓ1?znaZ
'nr
ćqcBuold .fe.trouoJneulcels -er qc'tr9p1łl '(uualore;erdtsel lepou '{.l91y Iepou I g.nJ lepoul ńzsde1TgVJ lepou '(zsde1eIeIMez dl-o}ą.n1sorfzrd serą,tłl ,Łcuńpefod vpbzlodg . € I }soJ Lobls Loblv LobEELo/o07,.Ą .|emouorneu 'T,l -śzldśllr,mrnezco rcels nlepou e1p n1sor'(zrd serą'Q''r lse|r{u1 vpbzlody .(npółq .p ryuu'Łc1gdsrndłłno4ec - 1) n1eporu9goupeplopĘrłroą1zcI9eDIo .npółq .c ryuu'{zc1gdsłr'$rłro4uc l9ex{o .Nd .q łIu7DIs1Y\ I'eqo .d{ .B łIu7Błsł\I9eDIo 'uJnqc uruern,(prłrezrd op lełrouomeu IJeIs |nso1se7 .11 lepou .p1ru'fur|eu ińuułrore;erd1se[1epou ,trgly -1Y\gJod nleporu op vptezl1 '0r 66 op I po BIueZcIł\gqgrczld| g.vJ o8euf'{zfcep B./Y\eZJp ;qceuor8er qc'{rgq łr ^(uuznore;erd 1se[1eporufugł) J1{VJ łepou nqo BIp n1sor.(zrdser1'{zrrńzcufpelod vpbzlodg , 6 .1|cuąg,(s LobO; Lobov LobEt,Lob1z łr 1sor.{zrd'(uurnrxezco1se|pp1 '8 -e14 leupóp ue]Zsoł ruńuu^rosedop z nleporu e1pnlsor,(z.ldse.rr1dm ISVJ vpbzlody 'n1sor,{zrdtuasar4'in e rueseq,{rnru,{1 '{zpórurod 4ezhnz ftu9e|t,11'JuV3 nlepou o8eq9'truop e1pru1sfz serą'(llr vpbzlod1
Lob09LobovLobEELob1Złrlsor'{zrd ',(uełrrłezco u1pnlsorńzrdserą'{łrvpbzlodg .g lsa| pIBf ISVJ nlepou o8eu1g,{uop
Epilog - Zaproszenie Methods doDatailllining cozaczę|iśmy'' ,,Dopieto W......., andModels
Mam nadzieję, ze zprzyjemnościąprzeczyta|iścieodkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych i ie naszęwspólne doświadczeniezaostrzyłowam apetyt na dalszą naukę o tej niezwykłej i potgżnejdziedzinle,W rzeczywistości,,zrobiliśmy iopiero pierwsze kroki" w naszym poznaniu eksploracji danych. Dalsze tomy tej wydawinei pizezWiley Interscience serii o eksploracji danych czekająna wasze opinie. Dita Mining Methods and Modelsl to większy wybór modeli do naszej dyspozycji i pogtębienie metod i modeli, które już poznaliśmy.Na przykład, rozszerzymy naszą kolekcjg modeli klasyflkacyjnych o metody naiwne Bayesa i sieci Bayesa. Ponadto, tom Data Mining Methods and Models będzie zawierałstudia przypadków w po szczegó|nych r ozdzlałach,wi gc czy telnicy będąmo gli zobaczyć,j ak rc zw iązaÓ r ze czywiste pioblemy biznesowe i badawcze Za pomocą metod i modeli eksploracji danych na dużych rzeczywisĘch zbiorach danych. Kazdy krok w procesie będzie demonstro. **y, ód identyfikacji problemów biznesowych,przezwstępną obróbkę danych, eksplo.u"yj''ą analizę danych, rozwój modelu' ocenę modelu, aż do przedstawienia wyników * rl'-l" zrozlmiałejd|a laików. Jest to praktycznaeksploracja danych w rzeczywistych warunkach. Poza tym' Data Mining the Webz przedstawi trzy g|ówne strony eksploracji Internetu, to jest ana\izę treściserwisu (ang. web content mining), analizę struktury serwisu serwisu przez uzytkow@ng. wób Sffucture mining) i ana\izęsposobów korzystania z w tym tomie są analiza omawianych ników @ng. web usage minins). Wśród tematów historii kliknięć (ang. clickstream analysjs), obróbka plików-dzienników, obsługasesji, uzupełnianieścieżeki analrlzasekwencji dzienników sieciowych. Dziękuję wam zadzielenie Ze rffiątego doświadczeniai z niecierpliwościąoczekujg dalszej wspólnej pracy w przyszŁości. Dr Daniel T. Larose, Director, Data Mining @ CCSU www.ccsu . edu/datamining lMetody i modele eksploracji danych' 2Eksploracjadanych w sieci.
. .Nńó.d ols 0IuD(^oS 966I e MSZS.JE1Y\. e.ĄdołneNo^\]clu^\ep^/,V[, -Dz1ntoayt'runłspo4.ałĄouotnau nals auzJn1zs.qcrupó1.',y1.plsmg.W,epeln7.W.f .' ' 9002 e lll'EzsmlY\'NlA.d ,tfcua8qagt fauzcnlzs .Dls.toł]nu .T .€ e^\ołnuN o^\]oluł\epń^N ryluq)a1 1 Kpota7t1 .666I EMezs'IB^\.N^&de.ĄĄołneNo.tqcrułrup't16,alKtuzol tułaLsKst .T .pIsgTIId.trĄI.DIS1ńoł1nu.o .z auzc&aua8 fuł1Klo31tl,aAĄouotnau2J2?s'.DIs,ĄAo)pnu , .fTd uzclułrep.{16eu,(cg6 DIcIuIepBłV, D|IlDttło S v66I eN\eZsJ€,,!\ -o1SDz1 tno1spo4 ,aĄĄouotnau Darc auz)nżS.pISgIcn .q .zcrłroqcnqo.V .ZcIqJo) .f .I :e.ł\ouoJneu IceIS ' .euzJluqceJ-o1ńołn?N€^\]clu.Ą\Pp qcKzclupo"t ['1yą, I0Oz E 1t\EZsJąY[ .PlcuuoJo) .f 5InZcIuIeIW.f .T, -Kzld 1 qcKuznuqca1AĄ?pruaDI&|7ruapnlsn1po4tłstłot,s' .900z e1(BzsJą!\.euzcruqceJ ,)rc acbzcn {ulals(s auzc(1sQo1g5II^\J .f .plc?uoJo) .[ .I -o^it\o In?N ełr1clunupń16 :euzchtshw1s,(po1e6 '0002 .I .euzcruqce;-o1Y\ołneNurvr1crułrepń7y1 ,)rc acbzcn Kula1s|g .ZSoI{JIJ B,ĄABZSJe1Y\ a :eru193o- qc'(uep e|cero1dsąg
ecbJe;uFdnzn Elnlprol!'l
lndeks
AlgorytmA priori 17,91, 186-195, 199-202 -c4.5lr8-1f4 - c5.0 r25-1f9, 209-214, 278, f19 - GRI 17, 195-198 - propagacjiwstecznej 13f, 134-143,218,2I9 analiza koszyka sklepowego I 7, 185-l 88, 194, f02 _ podobieństw zob. ana|izakoszyka sklepowego - skupień zob' grupowanie Bank of America 1, 2 Bhandari Inderpal 3 Boston Celtics 2-3 Bremer Eric I Brown Dudley 2 Children's Memorial Hospital 1 CIO Magazine I Claritas. Inc. 15. 151 Clinton Bill 1 CRISP (Cross_IndusĘ Standard Process) 4-:7' 9, 17,f6,209,f18 -, ewaluacja 5, 6, 206-218 -, modelowanie 5, 6, f6, f06 -, przygotowanie danych 5, 6, 26-38, f06 _. wdrożenief' 5_7' 9' 7f,93, I94,204,206' f08,
2r3 -, zrozumienie danych5, 6, 26,4I-65,206 -, - warunkowaribiznesowych5, 6, 26, fO6
Daimler-Chrysler5, 7-8 drzewa decyzyjne1t, 20,2I, 68, I09-1f9, 182,183, f09-ft1 - -, algorytmC4.5 1I8-If4 entropia118 redukcjaentropii 118-124 zysk informacji I18-If4 - -, - c5.0 1f5-r29,209-2rr,213,2r4,218, fr9
- -, CART 111-118,125-129,r82, r83, 195,ftr, 218 _., gńąź109_111 _ _,korzeń109_111 * -' liść109_111 --' regułydecyzyjne|24'If5 następnik|24' 125 poprzednik 124, L25 125 ufność wsparcie125 _ -, węze|decyzyjny109_129 -., współczynnikbłęduklasyfikacji 93_95, |16_ 118,209-21r,2r3,218 dyshetyzacja63,64 EDA (eksploracyjnaanaliza danych) 11, 4I-65, f06,207 -, zmiennejakościowe 45-51 danych24,9-I7 ,26, 45 eksploracja - -, studiumprzypadku'7,8, 17-23 ewaluacja,MSE (błądśrednikwadratowy)8l' 96' f0'7,f08 .' sprawdzian kłzyzowy104'105'107,142 _, SSE (sumakwadratówbłędów)81' 96' 138' 139' r 42, r43, 157, 159-162,f08 -, zbiezność wyników 218'2I9 Ewing Patrick3, 11 FBI 1 Gartner Group 2 GrinseinGeorges4 grupa15l-166,171-183 grupowanie10, 15, 16, 91_93,151_166'1ó8_183' 218,219 - hierarchiczne16, 153-157
ś_ '00I €1t{!9Jr ?9oułt9Jelu 96-y6aruezbtcqo -'- ._ _ 7,LI 9616 śuttcetm,m.-o.torueztrcqosruro.rduro>1 ,jLI ,69I ,8sI ,LgI ,vq ,zol_00| € . ĄĄoseplplne _ 8t(, .ZyI_v;I,7,9I, , .zOZ,.8€ I .III ś€ 6 -16 eu€ . ĄoJozpuufpo1eur OL| 90I_6699oł3elpo LO1, v0z-s8I ZqI-L;I pe1r4.tztd',9zI .va .89 ,oz,6I , .9I ,u .LI łn8eJelu?ł\,{Ąpo zgl_Ls| plołuec ,7,9I,E7,,77,,9I _ |łcl'rdpallłt 79I_L9I ,9OI y rgq,,{łr ._ - _ L1I sLr'z9r'tsr'79r'ntr'zEl .90I .- _ _ ,Lz| ,9zI .z0I_o0I .9€ .9€ euozB^Ą eIuIDIoIeIIIBIupeJ'n x?uI-uTuI B|c€ z ryIuJou 90I eruezcn'- - 90I'66-L6 e^\ruel € s{cltr)JłJo^ 1ńeN .€ 0 I euoz€ ^ \ '0I s ucN ._ _ ._ . ,ZoI e1sorderuu.tosoł8 EOI e|c4uq .- - bol-zu eutśzńcep .9I .€I łr-opersts BpoletrĄI ącśzszqq|uu-4 € uollBlcossv lFglełs€ g puoI]BN € uqof uIqsIBN
LoI_|6.€€
] BnV peuru€qohl 6 enÓ uef elno.I Z (ousrdosuzc) uataay t8o1outlcal JIW 'qoz rc9o13e1po I opln9 reupurrl efclun; 'rcgoltepo ererur 99o13e1po p2-71e4f+shets '- - '- .8€ 6€ I,fuB'\Ął ,18 ,9 ,65 e1q9rd .- - ._ _ t1Z L-69 89I o^neJueuoqox EOZ,9Lt, 8II, 9 L_.(, L. 1y elceyndod 60?,'807,' 702'8r r-601'90r' L6' 96 .- ._ _ ' .. IL_ZL Ąevmmd v6-|6, 88_LL. e9,09.w.s I_€ I I I nlec?uuelluz p L_77 auzchs,fie1s eruełro1solu.,rl.- . '- '9IZ'602,n4sfz '._,_ t8-I8'9L-EL,(no4uncezs Dlund serr1f.,r.r LI7,,src.60z n1soł(zJd ._ ._ € 8 _I8 EI7,,IIZ_607npó1q1nru'Łc19ds.tt rJtoUBA\ feuurqd.r omosol eruerrr,(ptnaztd'- -'- 0IzdJ -'*'.g8-I8 ś9t-'l lc'ouJn luolzod ._.88 0Iz Nd łIu7?łs1ń .- ._ 88 9I(, Ęsolśzrdse.rłńłr'{ue,trropurn1s ' ,_ ,_ ,6971solśzld Eg-lg' gL-n L' I L' 69' tl'z I rctouJn lerzpaztd'- 9I3-I7, I L senlez npótrqzretceru._._ erc,.60(,t|ce>1g'(sep ._ .17alspÓ1Bzmzeq etue1'(qcpo erupeJ' _ t,Iz_ 60z 4g eu.to'Ąfzod .- .IOI efce1g,tse14 e.,rtńzs1e; Elz_6o7,51geu.tr.{1e8eu . .8€ .t€ .- - .- e.{opJepue1s elue1,(qcpo ,607, ._ ._ EL, I L,7's ipełq^\olzso{eruB.Ą\owdop 7IZ_II1, 'gn rrgouuefl.uz - '- .- ._ I L'Zg .Ęr.tro4ec trc,uz-6oz npóp rpuuńzc1gds.tł .I' .0€ € r upeJ9 ,t.rc ,_ ,_ nL_69,7,9.8€ vrc 1s.{z4zsoątktcep en1eue IL_69,z9.I€ Bpolu LIZ' ilZ-BOZelcenlune''67,r lL-69'29 BrrBrpelu Lrz-807,'6Vr3nr '7,9alpor9 - '- .6 e[ca1g.{sep1 IL-69 _60I, L9_E9, 1 66_t 6, t,E, 7,E, sI_€ , I IL'(,9'8V Wnztzot-'- 1 spq3 '{1ey ._ _ I L_69 Bluezołod'fuep .6/,n9. 98_€ 8 9v.nn, ę1.71 e|ceplo>1,7 (orusrdosuzc)1aatr4uotlotutolul śż'€Iu?lto{ggJd pttq ._ _ ._ _ '69 urrroqund efceuI'tse '- Ig'vL-zL 1 ueqcol ddql .euzc,tsfłels _ 19-64 e|ce1ode.łqg . _ z0z l 6 eu?.Ą\oJozpEuelu ,ę6 tuttcepllu,t\- ._ 8I7,,8O(,.y6
8r7,'802'Znl .8[ .sg I I, ilI, LoI.vyl, 86_7,6, ę1,11tctzcn_,_ _ gIC'90(,'9VI'V6'96,Ono1se1 rgrqz.- ./OI Z V I . S T , I . 8I I .96-66 (etuezcnezrd)eruułrosudop eruenupuu.- ._ ._ 9616e|un1łu1ń - _
.€ 9 I -.(nJAJ ddru8 złbu.,rłełr I9I-69I 19I -69I .€ 9I ruudnrE dzpónuod ?gouuefiuz .ft3g) _ ,_ _ ę91 ecbte1alzpzol ,vgl vrdLezxbłodo8eruperg LIIjiI ggl' bgl etuazcblod o8ezcu,(pelod9 S I-n il eruazcblo d o8elrrno4le c Bpoleu '- LgI-tgI eufdcureuolSe '(poleru
utt'a::,1::
.:gBB
_ MiŃowskiego (metryka)152 - Mańattanu 152 opis 10, 11,4l-65, 68,206,f0'7 -, ewaluacja f06,207 -, _, zasadaminimalnejdługości opisu 207 AdvancędScout3 oprogramowanie - ClementineI, 14,42, 46,47, 5I, 6I, 63, 69, LI6, r'75,176,193r17,125, lf1, rf9, r4',1,148, r95, r97-200,f09 - EnterpriseMiner 162-165 - InsighttulMiner f9,31-33, 38, 126,146,14'l - Minitab 6, 12, 4445, 8f-83, 87, 20'7 ę I0, 12,13' 57' 68_88'l05' 106'111' Przewidywani r34, 165,207, f08 -, ewaluacja20'7,208 przygotowaniedanych, czy szczenie danych 27-29, 5l _ _, identyfikacjabłędnychklasyfikacji32_33 _ -, obsługabrakującychdanych29_33 - -, przeksztalcenie danychf6-28,35-38 punktyoddalonę26,f8, 33-35' 38' 39' 70, 7 I, 106 - -, identyfikacja 33-35,38, 39
J-miara 196-199 zastosowanie197-199 - -, właściwość A priori l89-191 - _, zbiór częsty189_191 _ _, - zdarzeń189_191 rozciągatieosi 104-107' 162' |64 rozstępmiędzykwartylowy38' 39' 71
sAs 162 sieci Kohonena 16,15f, 162, 168-183 - -, algorytm Kohonena 170_171,175 - -, funkcja decyzyjna 169,1.70,17f - -, gnrpowanie 175-182 --. -, zastosowanie182, 183 - _, neuron (węzeł)wygrywający I68_L74 _ _, przykładuczenla I7|_1,75 - _, uczenie z ryw alizacją 168 _neuronowęl1' 17' 18' 13|_149,169,I70 - -, algorytm propagacji wstecznej I3f, 134-143, ft8, fL9 krok uczenia 139, I40, I43,144 - -, analiza czutości 146-149 - _, bezwtadnośćzob. sieci neuronowe, składnik momentu
Regresja'błądpredykcji'78_81' 83' 86_88' f07, - -, funkcjaaktywacjiI37,138 __,_tączącal35' 136 208 - - jednokierunkowe134,168 -, - szacowania, 78-81,83,86-88,20'l,2OB - liniowa, oszacowane równanie regresji zob. regre- - -, kodowanieI z n I33, I34 __, nęuron131_137 sJa,rownanle _ - p e ł n et 3 4 , 1 3 5 ' L 6 8 __, równanie77_8l' 83' 87' 88 - -, propagacjawstecznazob. sieci neuronowe,al--, Prosta12,76-:79 _ _, -, współczynnikiregresji77_79 gorytmpropagacjiwstecznej - -, składnikmomentu144,I45 -, reszta78-81,83,86-88,207,208 - _, szt|Jcznyneuron(węzeł)zob. sieci neuronowe' - wielokrotna|f, 13,45,83-88,207,208 neuron regułyasocjacyjne,algorytmA priori 17,9I, 186- -, warstwa ukryta 134-136,138, 140-142,169r95,199-202 - -, - GRI 17,195-198 t75 - -, - wejściowa _-, częstość |34-136,|38' 140_|42'169_175 zbioruzdarzeń189_19l _ _, - wyjściowa I40-I4f, |69-175 _., iloraz ufności201 134_136,138, - - warstwoweL34, 135 - -, macierzowyformatdanych188 - -, miaradokładności mia- _ _, współczynnikkorekcji(uczenia)139,|40, |43' zob' regułyasocjacyjne, r 4 4 . 1 7 0r. 7 r ra wsparcia - -' wymuszeniezewnętlzne|36' |37 - -' _ wspźtlcia 185'188'|89, |92_fol - -, znacznikj flagi informująceo wartościatrybutu --, mocne189 _-, następnik188 r32,r34 _ samoogranizujące się (soM)' adaptacja 1.70,I,|f_ --, poprzednik188 --, przykład186-194 r74 - - -, rywalizacja169-170,172-175 - _, różnicaufności200 - - -, sieci Kohonena168-170 - -, transakcyjnyformatdanych187 - - _, współdziatanieI70, 1,72-174 _-, ufność 185'188'189,L92-20I - -, uogólnionaindukcjaregułGRI 195-199 s P s s 1 ,f , 5 , 1 4 , 4 2
Z (ousldos?zc) saa1ę1g71ą7 - _ E8I_9LI, 99|_z9I, 9 L, 9L, o L. 69, 99-zn uJn1ł3 88jL slDarac - 8E-62 stDr - -
8r(
,v07-n6l ,6nI-9vI ,6zI_97,I ąnpo qcśuepfi,sotqtr .9g _ qcfuełrozfrupllels ,rrgnpdzer 49 '6tI 'I9 '0Srrers08I 79rg9 d,torurur,(ł|9r1- 00I-16'18-n8'81 ' ntnzrzorLL' Z9' 09'nV'W,'il'7 1 daa.omrur,&vrn1l\p seq,(tr 99 duJuuroudrrro1,{1uualą -'gglg fuumozrleuuouz
o8r' LLr' r L' E9'Zg' 69-tS'9n'8E-gg urerEolsq'V61A'gozqc'(uupelcezrletztTTy Jo dro1tsodeg1361 z' sesuqulu( Eurureł1etmlsetrĄI 7p'1y zelodyqhset I 9, 6v_Lv e^ozśzt4 e1aqea eł\ouomeuIJeIs .qozeńdouomeuIcels guzcn]Zs .- .167 f.toprupuels ptłq ._ 8o7,,Loz ufcun1e,łe 802 ./0I_90 .88-89 .9' .zI-0I elue1t\oc€zs I 307,vt,| ESI-ZSI'ZEI'ZOI-qq;1'gg-99 efcez,ftepuets