Pau! G. Higgs -r resa K. Attvvood Redaktor naukowy przeldadu Krzysztof Murzyn Z języka angielskiego przelożyli Krzysztof Murzyn Piotr Liguzi11ski Marc...
Krzysztof Murzyn Piotr Liguzi11ski Marcin Kurdziel
WYDAWl'-llCTWO l'-IAUl
Trnnslaicd rro111 l'aul G. Higgs, Teresa K. i\llwuod /ii11i11/im11c11ics t111rl Mo/1•c11/11r t•:v11/111i1111 l'irsl cdiliou
iJms ·tneści
1,·, 2005
by Blackwell Science Ltd a l\lackwell l'uhlishing Crnnpany This cdi1iu11 is puhlishcd by arra11gc111cnt wi\11 Bladovl'll Publishing Ltd, Oxl'md. Translaicd hy l'olish Sdt•n!ilk l'nhlishcrs l'WN \'rorn the original English languagc vcrsiun. l~csponsil>ilily or lhc accnracy o\' the lranslalion rcsls soldy willi the l'ołish Sdl.'nlilil' ł'nhlishl'l'S PWN and is not the responsihilily or Blackwcll l'nhlishing Lid.
l'rzeklad z ję1.yku angielskiego Krzysztof Murzyn (ro1.d1.ialy I. •I 7, '>. l'r1.cdrnowa. Slowniu.ckl l'iolr Lig11zi1lski trm.d1.ialy .\, g, 11. 121 Marcin !\nnlzicl (ro1.d1.ialy 2. IO. L\ i ll11da1ek 111all·111atyo.11yJ
1. Jl ewoluGja infonnalyczna w naulrn1:h bionrnclycznych 1.1. I ..'. .3. 1.1.
l'rojckl okladki i stron ty111lmvych Joanna Sobieraj \Vykuu.ysl:mo cl<'llH.'lllY graficzne oklmlki wyd:111ia :111giclskiL'gu
7. Pmiszuldwaniu !Jaz da11yi;h sel(wuncji 7. I. IVl«todv wys1.11kiw:111ia podobnych scL wcncji . ·;. 1.1. Metoda Srnitha Watennana 7. 1.2. lleurys1ycz11c 111c1ody wyzn:ll'rnnia dopasow:ui loka\11ych · ·1. I .. \. 1is1 Hl ,/\ST 7. \ .:\. \'oniwuanic 111v1od 1ir1.t:sz11kiwa11ia 7 ::. Statystyka dopasow:11i (\\'teorii I 7.,).1. I>laczcgo Zil\\'J"ac;H~ sohit; głO\\'\' :~tatyslykq'.>. I ') l'rnsty przypadc:J, dopas<>wa11ia pary sekwencji ·; 2.~\. Prosty pu.ypadt~L pu.es1,ukiw:inia hnzy sekwencji 7. !.·\. l'rzyldadowc dopasowanie sl1iw . 7.:1. S1a1ys1yka dopas"11-:11i 1w prnktycc:I I .itcra111ra Zadania ')
'\bi
207
F1\STi\ i HL/\ST.
.'.07 207 212 215 -~ I I> 220 L'.O
n1 222 '.)2()
229 23.)
:;3 .. \ :~. \. \
lrnści
Bpls
I)(
VIII
1O. Metody 1irobabilistv1:zne i nauczanie maszynowe ... 8.
Mr.lody lilooenetyczne .
:'.\<>
)\.I. /,rozu111icć drzl'WH liloge11etyc1.11e li.2. Wybór sekwencji .. lL\. Macierze odległości ewolucyjnych i 111etody analizy skupisk. li ..\. I. Wy1.11ac1.anie odległości ewolucyjnych . iu.2. Metoda średnich pol:1c1.e1i . 8.3 ..l. tvletrnla prrylqa.ania s:1siadów
.'.·Ił
2·J.\
·'·l°I
10 ..\.
251 .''.i·l .'.5·1
Metoda bootstrap B.5. rv1ctody oplymalizacji du.ew i 1nctudy poszukiw:11iia drzew
H.H. Inne metody r.wiqzane /, na.jwi\~ksI:t 8.8. I. Metoda układania u.wórek .
11.5.5. Wykrywanie pndobie1\stwa sekwencji 'J.'i.(i. Wykrywanie pr1.ynal0.11ości do rodziny 11.'i.7. t\nali;.a (il>('}{ 9.5.g. l;u11kcjonalnc 1.11ac1.c11ie 1.csta\\l(,l\V 1'L'cl1 n
.\li
1
/.jH>1.1l:1wc/,ych.
"'.i'
291
Profile i pozycyjnie :.r.n'1i.nicowanc 11iacier1,e punktacji
I .itcrat11ra /,at1"11ia Tcsl
„
. . .
:1.11
}~,_-,
Zad:mia 'ksi
().,I,
.\.\(,
( ·.·~·--· raw,<. opodohie1lslwa a priori uraz a posll'riori 1 ).~ ..\. Dolmr par:1111ctrów 111ndcl 11 Wprowad1.L'llic do 11krytych n1odcli ~,1°,11:k;1:„;, ;I ;;l~·I·): IO ..\. I. 1\,11·'".ll'k Markowa i korelacje w sckll'L'llL'.iad1 .. IO .. \ 1 I 1osy t Ili<)(,. I I I I MM/. dwo111a stan:1111i ukryl\'111i 10 ..\ . .\. IJohor par:1111«tr
,11l'ral11rn
.1.n J.H1
:\OlJ .\IO .\!:\ \16 .\20
T22 .Ul
II
1 I. I .. I. ~1.iksyniah1.:1qa liC1.by sparowanych 1.asad · I 1.1 ..~. I odL'JS<.IL' hard1.icj rl'alislyom· 11 I (J Wplvw tcrn 1 ·1 · · · · · · · · · · · · · · · · · · · · · ' y11a1111 d ll:l l'll'lllllcj\' sck wciicji RN;\ ..
„:
. . '"'
1 I >op.lsowyw~m1e lll(ldt~l1 cwol .:_, , ,· '·I I 1.2.1. W h.. , . llLY.Jll)' l. do da11ycl1 ckspery1111·111al11ycl1 l ··1 ) ) ~ o1 rnodt 1~1 Ilu p:ir:tl!H'lrow rzeczywiście potrz.t·hLJt·mvi „
1··;··-· 1,al aniclry1.:1qa llH1tlt.:li pods1awie1\ a111i11okwasowvcli . 1. 1..... 3. I odst:iw1c1u;1 sy11011i11Jicz.11c i nicsy11011i111ic:111e 11. \. /.astosowa11ia a11ali;.y liloi•<'IJet\'L'/.1iei · · · I 1.3. I.
Radi;1cj~1
ssaf·d'>w . .
. ·.
ll()
. \ t\,
••••
.I
·
·
.\'ri ·11111 .[()()
1 I .:\.2. Typ: wic:lokrn11<·Jrkmvcc 11 .1 .. l. l'.wolucja j:1drowc1iw I I ..\. I. l1111t• pr1.ykl:idy. I .itcr:llnra
.Jtl'\ .i(f/
1rn: 1111
12. Ewol11cj;1 nenomu I.~.
111
I. ( ic11u111y bc1j;1dr11\\'L'O\\' I':!. I. I. Ponl\v11ywa11ic ge110111<'nv -h~·;.j,;d~-(;\,:L,;.,;,.· I:?.. I.') l ltr~1lH i rcara 11 i~icja 11,l'IH.J\\' .' : . . , . 12.1 .. '. [)~1plikaLjll l!L'IH,l\\' nra1. po1.iu111y traw.kr ~~L'JH.iw l2..l.·l.WykrvlV'111icidnr·l·1·· I I · · · · · · I.?.. I .."i. SI_" .· ... · . . ' .i\~ iys y ~;i po1.10J1H'}!O transl'<'nl .!.~t'IJO\\"
( ie1HJ111y or1.1a11clli . . . . . · · · · · · · · · · · · · · · I )„~. I. Pm.'liod1r11it: n1i1ncl1
I .~.2„\. '1'ra11sk.r g~'.1H)W orga11clli do jt1dra I .:.~Jl. fVll'<:ha11i1.111v reara1ri.ac.ii )!,l'lltlw . . . · · · · · · · : · : : · · ·, · · I L25. Filngem'./,y ~vyznac1.anc na podstawie a11:ili1.y kuk.1nosc1. gcnow
I ,ilc1111ura
1:i. IVlilmunac:imrn llNll,
-15·1
urnv i om i lei
1.L I. Orny i 0111iL.i \ .\.:~. Tvci1nil,:1 badaii 111ikro1uacierzuwych I.\ .L Nor111ali1.acja danych /. ini!...rornaciL'l'Z)'. I ;,.1. \V 1.orce w danych rnikrrn11acicr/.nwych .. 1_11 •• 1.1. Vv'ykry~vanic istot 11 ych 1.111ian w po/1rn11ach ckspres.11 J
.\.-1..'.. 1\11:iliza sk11pisl.
........ ·
·
· · · · · · .· · · · .' · · ·
I \.•I..\. /\n:iliza skladowycll ;•l<"•w11ycli i rw.klad warl<>St'l osobl1wyd1 .
1.L·l.·I. Techniki naucz;111·1a 111asiynoweeJ) 13.:i. l 1 rl)tcrnnika I .IS I. Rmd1.ial i idc111ylikacja liialek I \„~„'„ Kilka pr1.ykladt'1w liadai"1 prolt'.0111io.11ycll
IJoilalel< 111atn111alyt:1.11v . !VI. I. Polit~.Pj i lugarytrny M ..1 . Silnia. i\U. S111ny. M.-1. llonyny fvLS. Pc·n1Hllacjt· i kn1nhinacjc fvl.w11ania rt'>i.11ic1.k(1\Vt.' IV!.'l. l{m.klad dw111J1ia11mvy . M.10. Ro1Jlad 11orn1:d11y i\!. I I. J{(J1Jl:Hl l'ois;:<>1i:1. 1 IV!. I .'„ Rm.klad ,\" 1Vl. I.\. !•'1111kc.ia gallllll:I i n11.Llady ga111J1l:t I .i1i.·ra111r:1 '/,;1da11ia 'ksi
-1'!7 ·1'!8 -19') :)()()
500 501 .~IU
:1
:>08 :'ilO 512 :'i I.I
5 Il
:1 I :I
Wvlwz atlrnsów i11l!mwtowyel1 'i 18
Slownii:wl( ."\.'(•
Ku111płcksowc progra111y k~;1.talce11ia w 1.akresie bioiul'ormatyki ua poziomie magister,;kirn lub licc11cjacki1n s1aj<1 si\: cora1. hard1.icj pows1.ech11c, a pojedync1.e kursy bioinforinalyki luh hiologii ohlic1.euiowcj 1.11ajdują si1; w programie wielu specjalizacji na kierunkach ks1.lalccnia studentów uauk biologicznych. Niniejsza ksiq7.ka 1.aspukaja potrzchi,~ ist11icnia podr1:c1.nika 1.awicraj:1cego omówic11ie zagadnic11 o kl11c1.owym 1.11ac1.cni11 w hioinl'onnatycc. 'v\I ksiq7.ćc prZL'.dstawiono najcz~>ścicj stosowane rnctody ohliczcniowc orni. icli 1.as(osowania we wsp(i!C1.cśnic prowadzonych badaniach naukowych. Zawartość książki odpowiada programowi nauczania bioinformatyki 1ia poziolllie magisterskim, jaki ohowiqzujc na UniwcrsyteciL~ w Manchesterze (Anglia) oraz wyklado111 z biologii oblic1.eniowcj prowad1.onym na poziomie licencjaekirn na Uniwersytecie McMaster w Ontario (Kanada). Wiele z kluczowych 1.agadnicil hioinrornrntyki, jak np. dopasowania sekwencji, wyszukiwanie sekwencji homologicwych i konstrukcja drzew filogenetycznych, jest powi:v.anych z cwolucjq. Poznanie krnnpłt:tnych sekwencji gcnolllliw dostarczyło ogromnej ilości danych, które u111ożliwiaj;1 prowadzenie batiar\ ewolucyjnych na po1.iornie ge1H1111owyrn, i wymusiło powstanie odpowiednich metod hioinformatycwych. W ksią7.ec polo7.ono du7.y nacisk na orn(iwienie ewolucyjnych aspe.Inów bioinformatyki, umicszczaj;ic w niej treści, które nic wyst\~puj;1 w innych podręcznikach bioinformatyki. Dzkki temu ksi:J7.ka inoŻL> być równic? wykor1.ys1ywana 1rn kursach ewolucji molekularnej. Rozd:t.ialy książ.ki poświ\.'.COlll' bioinformatyce wyjaśniaj<) potrzeb~ stosowania metod oblic1.e11iowych w dobie sekwencjonowania całych genomów
Przedmowa
2
.·. · . t·ikżc 0 >is meclianii.1nów ewolucji sekwencji DN/\·, białek. _S1.czeg(>lowo populac_1<11111, ,1 , I 'r·ł I , ·tyC111C or·11 ich pr1.ykładowc ;.aslosowania. Op1sow1 c1.y11111·· ' viono mc!:v· ,.. ·. : " 1·1g·1dnicnia I. i.akresu hioin l"ormalyk I p11.cplataj<1 SI\' I ;.agad111L' W ca LJ ,s1,1i.cc. ·' ' „ . ,· . · . '· I 1 >11iie·1 sclH.'lllaCll' . . I tycncvrni cwołucp molckul;11 nc.1, co WI\1,\c 11a po ,;11.a11y111 IL 11ian11 Lo. ·' . . . ł' ksi;1iki. Materiał iawarty w k~.i;1:in· 1110111a p1 ;t'd . • „, -. · . cvrn układ rozd1.ia ow prZCl IS 1•1" 1'.11' 1 1 llld:HI rozdziali'>w w ksi:1żct•
Przedrnowa stawić w ró:i.ncj kolcj11ości i :i.ad na z nich nil: jest.jedynie słusz11:1. Nic1-.ałci.11ic od wyboru kulcjnośL:i ro1.d1.iałów. 1.aws1.c jakiś ro1.d1.ial h1:d1.ic 1.awicrał odniesienia do któregoś z kolejnych rozdziałów. Układ rozd1.iałLi1V w ksi:1:i.cc został tak dobrany. :ihy od1.wicr cicdłał ist11icj:1cc powi;11.a11ia llli1·d1.y hioinforlllałykq i cwolucj:i 111olck11larn;1. a talci.c aby 011H1wicnic podstawowych 111ełod poprzedzało rozdziały dołycz:1cc hardziej 1.lo:i.onych zagadnic1]. Mo:i.cmy przyjwic11ie hard1.icj 1.aawansow;111ych 111ctod orni. ich pr1.ykladowych 1.aslosowaii. Wykladowcy kor1.ystajql')' 1. tej ksiqi.ki 11l;1. jq pcl11;1 swohodv w 11stałc11iu kolejności ro1.d1.iałliw, ktlira najlepiej h\·d1.ic oclpowiad:1L' prowadzonym pr1.e1. nich wykladom. J<.si<1:i.ka jest pr1.L'/.llr1.y lllll!!JI d1L·icć sa11lod1.icl11ic tworzyć 11mw 111elody a11:ili:;.y danych hiolo· giu.11ycl1. .~wiadolllc kor1p;tai1il' 1.c spccjałistyo,11cgo opm).!.rn111owa111a hioinl"ori11:11yc1. negu wylllaga prawidlowcgo 1.ro1.11111ie11ia podstaw 111afl'111;1łyo'.11ycli i sl;1lyslyG.11_vd1. na kt(irych si~· 0110 opiera. /:apcw11c wiciu 1.·1.ytclników ll'j ksiq:i.ki l>1·d1.ic st11dc11t:1111i 11:111k biologic1.11ych. kll\r1.y 1. rL·1.crw;1 on·.niaj;1 swoje ko111pclt'.llCjc m;1łe11wtyu.11c. /.tego powodu wywody 111alc111atyc1.11c sb. Nic powsłr1.ylll11jc to jednak a11łor(iw ksi:1:i.ki pr1.cd u111ics1.1.·1.;111iclll wyrni.c1i 111atcniatyc1.nych w ll'kścic. po11icwa:i. w ich pr1.ckmiani11 :;t;i11owi:1 Olll' n:t·11 cjr rn11:1wianycl1 111l'1od i>adawL·1.ycl1. Banl1.icj 1.a\vik 1.ag;id11ic11i;11.1.akrL·s11 111alc111;1tyki z11ajd11jq si1~ w wyra/.nic wyd1.iclonyd1 /. tekstu ralllkach. Ksi:1:i.ka 1.<1wi1.·r;1 niwnic:i. do datek, gd1.ie omL'>wiono podstawy 111atc111alyki, kłL,ll"l' powi11ic11 znać Lai.dy :;łu\kllł liio· i111'on11atyki. Studl'11ł0111 11ale:i.y 1.wyklc pr1.ypo111inać o ko11ico.11ości puwlar1.ani;1 i th>· skonalenia Ullliej\.'łności matc111;1tyc1.11ycli jakie nabyli w poc1.:1tkmvy111 okrt·sic sludiL'>w. a których pIV sieciowyd1. Io jcd11;1k 11iL'. stanowi 011a zwyklcj listv progrnm(lW i adrcsL'>w sicciowycli. 'J:d:ic i11f"or111acjL· 11k:gai:1 szybkiej de1.akt11ali1.a<.'ji, podo.as gdy 111l'łody i ich pwlst;1wy lco1rlyc1".1w 1101.oslaj
9. Wzon:e 1;c:kwc·11cyj11<: w rodzinach białek
I O. tvlciody prohahlis1yam: i nauct.ank nwszyuowe
Przedmowa · slal''slyc 1.11 y_ eh 11ods1aw melnd wyko. ir1.ed;;tawicnic 1corc1yo.nyL· Il ' -' l'r1.vst\'P11t I . . . . . • . . •' . I io11ilo11H.1lycL. . 1• ·11·1cL' v·111vch W 1 ow, u Ia I wi •. • · . · . . n hHJcll 11os1.c·1.c<>ólnych rol.( Iz1a ri.vs1y1 · · . . . ·idailla 111 u1L·-s1.o·.rn1c 1 • ' · "' . " !'yl
~vodzi~~l{O\l\l~mia
.
·. \ I . ·111t1 l'1··1ssowi z.a 1·coo oi~ronrny wkład w twnrz.cn1e pro.· ·t·ow·1c I lll Y 1. ) •·· · 0 M· • · · >1··1011ic1llY pml1.1\1'· . '11·1i1·111·1t."ki !la 1m1.io111ie niagislerskilll na ll111wcrsytec1e w .11.11 , r· 'I JIOll ' ' ·1 . ' · > „llllle ··111111 n:111L'/.:11ll• . I I ·t 1·1L' z»1·111". ai.ow;1nic i wvczucic !H >1.wol1 y UJ . , , •oo ':111·sil'f'/.l'. Jl'go ..."... ··t t1ll' '/.:wad11ie11ia. Dzi1:k11jen1y 1Vlagnusow1 ,a1trayow1 1„1 JC,, 0 t · ··;·111ia 11:1J \1·1nl11l J is ·' ·" ·· · I l ·1 t·il'ze ' · '· „ · ' •· I·si·i ·I i ioświ 1~concj teoru 1 agory morn.• • ' · Z'\ " „ t'OWYWlllDC
CIVl/\STlm
IVl/\NCH 1•:STL0:H
Paul I liggs Terri !\ tt wood Maj 2004
Hewolucja inforunatyczna vv naukach biomedycznych
Streszczenie W tyrn rozdziali'. rozwai.an1y gwaltowny przyrost dostrpności biologicznych danych sekwencyjnych, i przyrównujerny gu do rnajqccgo n1iejsce w tyn1 sa1Hym czasie wykładniczego wzroslu S'l.yhkości dzialania ko1Hp11lt~r(>w i wielkości ich pami1~ci operacyjnej. Po lekturze tego rozdziału czytelnik powinien dysponować wiedzq o tym, dlaczego bioinformatyka odgrywa lduczow;1 rolr w zrow111ic.11in inforrnacji zawartej w sekwencjach oraz w zapcwnit:ni11 środ ków t~kktywncgo przcchowywa11ia i dos11~pu do i11i'i>rlllacji. Rozważaj:w wybrane historyczne aspL'idy rozwoj11 bioinformatyki, wskawjc111y na jej silne zwi:1zki z cwolucjq molclrnlarnq i genclykq popnłacyjnq. llzi1:ki temu czy1cl11ik powinien 11ic tylko zrozumieć co kryje si1: pml tenni11crn „hioinformatylrn", ale także ocenić znaczc11ic hioinfonnalyki z perspektywy innych d'!.icdzi11 nauki .
Na przelolllic XX i XXI wieku, d1.i.,;ki dy!lamio'.11emu rozwojowi programów sekwencjonowania genomów, nastqpil gwałtowny prryrost ilości dost1:p11ych danych dolyc1.:1cych sekwencji DNA. Obecnie na świecie istnicjq tr1.y podstawowe bazy danycl1 sekwencji nuk kot ydowych: "' EIVIBL-· haza danych European Molecular Biology Laboratory zarzqdzana przez Europc:an Hioinf'onuatic:s Institute (EBI) w Cambridge w /\nglii (Stoesser i in., 2003), "' Gell Bank bai.a danych zarz11dzana pr1,ez National Center of Biotcchnnlogy lnformatiun (NCBll w Maryland w Stanach Zdednoczonych (Benson i in„ 2003). „ DDBJ bai.a danych 1.arz:1dz.a11a pr1.L?. National Institute or Genclics (NIG) w Mishima w Japonii ([Vliy:miki i in„ '.WO:\). Powyżs1.L: trzy bazy danych wymic11iaj:1 si.,; przechowywanymi inl(mnacjami, d1.i.,;ki t.:zenH1 zawierajq niemal identyczny 1.hiór sekwencji. Nadr1.1xlnym celem istnienia tych haz danych jest 1.
I;_ Howolut:ja infon,natyczna .w naukach biomodycznych 6
danych. Takie podejście przyc1.ynilo si\: do poslvflll w nauce i doprnwml1.ilo do gwal!ownego w1.rostu 1.arówno wielkości, jak i wykor1.ystania baz danych. Skal\'. dynamicwego w1.rnstu ilości doslvpnych danych sekwencyjnych il11str11j:1 rys. 1.1 ora1. tab. I. I -- pokazano tu h1c1.n:1 dlugość sekwencji zgromadzonych w baz.ie danych GenBank oraz lączną licz.b\~ tych sekwencji wzgl\:dem czasu. Zauwa:.i.n1y, ;i,l'. skala na osi pionowej wykresu jest logarytrnicz.na, a krz.ywe są w przybli:.i.eniu liniami prosly111i. Owacza Io, ·i.c wielkośt:: haz.y danych GenBank rośnie w czasie w spos1ib wykladnicz.y (por. zadanie I. I). Na rysunku lini
I. I. -Gwallowny przvrosl
ilości danych
7
'l\iheh• I · I · Wm1·1 · li(osci ··I1a1.v da11ych ( icnl\'\111· · s wie latach · - · , • "
Rok
I-.i1czna
J<))Q J l.'i .171 I) 51•1 Tl
ltJH5
Jl)g(1 I'!W/ ll)gg
198•) i'J
l'!'J'/ I (Jt)})
I - IO"
seklw.ncji
I'!'!'!
'2000 2001 2002
1-\ 0 Ic.111yc · I 1
I .i aha sek wc.11r.:_j i
(1()(i ,!•1:17 ·I 17'i .'i 700
2
l 1Jg.1
jHlSr.czególnych sekwencji w lej hai'.ie d:111yeh.
długo:;ć
li'
tJ
20 5'/lJ .1
8 -;
.l'J'i:l.\ :)) (i'27
'/8 (10g 1-1.l•l'J:' Jl:)~·~73
I
(i'1·1 021 .111 /(i) g.IJ
•1.
HJ7 gtr7
I
I g1„1 '.i70 IO JOb0.1.\ l·I '>7<1310 L? 3 l H gg3
I. I h11w pod1odzq
IO
łączna dlugo$ć !>L~kwcncji (kbp}
o I>.
llJXO
19')0
liczba sekwencji prawo Moon:'a wzrost wyldndnic1.y
2000
'.WIO
Rys. I.I. l'on'iwnanil' tempa wzrostu wielkości liazy da11ych ( ;,·11Ba11k (dane 1. tab. I J ;_ tclllJlL'lll wzrostu 1 liczb\' tra111.ys1ort'1w w procesorach kon1pulr~rów osohistyd1
łst11iejc inna, powszechnie :t.11m1a krzywa wnostu wykładnio.ego, kl\\ra jest zwią zana 1. praweill Mnurc'a. l\lloorc (I()({)) l.auwa·i.yl, i.t: lic·;.ha trauzystuniw w układach scalo11ych podwajała si.; średnio co roku w latach I 1):-i9 I
strony
.11ili
.~_!ll\/
I C:f~td.1d1il:/~·1r!Jilid!Jk!;t
,1\ ~;.
ltt tnl.
podwojenie lio.by tra11/.yston'iw w ukladi'.ie scalon 'lll \. " .. ·,.. , . . . hyc prz.csad/.one. l .i<'zha 1·1 ule\)'1 I . . . )_ I.( 1..is1c _1( dm go 1oki1 wyd:qc SI\' . , . · · ' ,,, P()( \\-OJL'.lllll rac1.q w l'l;f" 1 1 I· 1 · .. „ , . . " wskazrnk roc/.nego zwir•l·s·'L'11·1·1 1· „ I t. . , " . "'t - " , !lic ,,.i:-; _11.d11cgo roku, l(Z ))' 1an1.ys1oro1' '"i ·" I ' · · tego wskaJ.nika jcsl imi·lOIHIJ"l'"l t,., . _. . \ _11.„_ iowny ,-I. ( hoc1a1. wurtoś<' · , . · . "' , l JU 1ll,h1 JC:St 011:1 W\/r;J/I , · "'c--. w1clkose1 bazy ch11yc·l1 (', 13· i· . . . J • llL i11111c._1„zr1 od tt·1np;1 w1.rostu • ' ·, ( ' JLll rlll\ (por. rys. I.I 1 tuh. I„\), A co /. iia1szybszyrni na świec il' su1K·rko1111111, „ "I . . . pracownikumi (LlniwerS)'lcl 'I" , .. ,, ll, I u.in11. J.itk f)1H1garra wr:11.1.t· WSJHil. . , . , Ullll.ssu, SA) opracowal l 1·st I !NP\('!' 1- . . 1w1a porow11anic s/vhl ości t . · · I .\., dorv u111oz· 1 _ .- • 'J ' • 1,01n1n1 crnw w 1.ada11iu lllll ,,„ " ·, . - - · · · zlozrn1eii,o układu r1iw11·u'1 1· . ·i I . . c,„.i.J•lt) 111 11.1 101.w1;11vwa111u , ·. · 11i1owyl i. ,ista rank111oow·i . . . ·, .. " . ,. lerow na1kpie_j wypadaj:1cyl'11 w tvrn Jcścic 'c:-; ,__ ... ;:·"~ 11.1 d_I·!'_ :1 .it)l) :;11pcrkrn1qH1 pud adresem hLt-p. li,, - -, r. - - J I p1!11l1kow.111.i dwukrot1111· w <·1;p~11 rnkt1 „ . _- · .. 1' 1Jw · l (Jp.cOO · orq. f'.!a rvsu11kt1 I > 1„ • 1.-. ,· cst11 L llaraktcr\'i'llJ'l<'L' I·;" . · . · ---- 11 /.t' „t.111- 101111 w.v111k 1 1 ... ( ( .1.1 1.llllC ll
rok
"/.l'
Lp://t.J.lJł'.l)i
lit
•
' ' · ''"
'N"
'
I. Howoh1cja i11fonnalyczna w na11l
I.) .. Gwaltowny.ixzvrost ilo:\r.i danych 9
l\ys. 1.2. Wydajnnśc' ohlinc11iowa najszybszych na świecie supcrkornputcniw, klc\rc w wy11ikach testu IJN. l'i\('K osi:1gnrly najlqis1.y wynik ((illops). Da11c pochmlz:1 ze strony http://www. t:op!iOO. orq
I \
'i':d>l'la
_, 1
l)rn·1)w11;1111L •
l'lll
I
)i\
\\l'/Xustu
ilm;ci d;inycli
rfri,11ego
Wskai.nik
„ ·
lernpa wzrostu i !ości cla11ych r
Typ danych
. n·1111' (!:1cwa' ( n'll
li Hl)~Ć sckWt'.IH.:ji)
li". . . I. \'I· (l\t'!. 1,1 •
'
..
.
li"\11'/.VSlllrt)\\I) . t ·roW llt:SI I .li'll'1\Cl\J '11pt~rLtlllliHI l , } ·' 1 .. 1.1 (ii<'J.ha rek ordo w I llB I ~
)f/.t'.Sllit'\lll:l lid L
'·I
,;1ruk11t1.l J
.. . . ·I Wl'IH:jonil\VilBJ l \ic1,ha /St \ ·
ll'l)\,ariotyl:znyd1 I
typu
ut·1101now
·.
,
.
podwojenia '/' (lata)
Wskal.nik roct,Jll~go
p11yros111 ilości danych N
0,480
l;l·l
l,il2
0,:13:2
'.!,()')
I,.\')
l,!J.I I
\,'):\
0.'.20lJ
3,'.\
I.~ :1
O,ól»I
1
I
orgam1.1HO\\
l .''
l1it)i11l't1n11;111cs
g1'\lllllliC:;
,
Czas
0,518
1,1'\
I .<18
o.sin
I, Ig
IJ;O
0.'ihl)
I.'.?.'.-:>.
0,')%
0.70
Il, 188
.\,(l8 '>. ~\()
I.'77 .c.71 1,.'.1 1.07
0,071
··li ~L' h
c\11111•yW:tl\ltl. I
, .
:i.emy jednak polegać wylqc1.nic na kornpule.rnch i przestać rnyśkć. Jeśli zbyt11io przywiq:i.e111y si1: do istniej;1cych od dawn:1 metod ohlic1.eniowych, wc1.eśnie.i c1.y p1)źniej doświadczymy ogranic1.L~11 natury spr1.rtowej. Ci:igle potrzeba ludi.i, poniewa:i. tylko ludzie potrafi
I. newol1H;ja inforrnalyc;wu w naul
10
. IHlW.ycl1 L"oenomów hc1.1'• ądrowe6w • jesl• obecnie 1.adaniem niemal rutynowym. v\I lahclllC • . . i I .'-I /.a warto historyczne dane wskazu,1ące na posl<;p w ,ilro1ck lach s~k wcnc,1rn1owan1a 1 , v z· z·1zn·1czcnicm oc11011Hlv " ' ' ' . kilku 11rzclomowych ' . momcnlow. . , Po opubl1kowa111u 'gc110111u · „ · ·l"t '"'"/, . 1OWIC \V 7()() I roku moż.cmy 11owicdzicć. ze wkroo.yhsmy w „er<; postgenornow<) . '' . , . , li) ~, szyblw rośnie liczba calkowicie poY.nanych gcnomow hci'.J
Tahda JA. 1lisloria progra111ów s<'kwencjonowania geno111(1w
W 11 inicj~;:r,ym podr\.~Ci'.lliku poloż.0110 nacisk 11;1 :r.wiq1.ck llli\~d:r.y hioinl'orlllatylq ,,\ Cv '"Vriluc'111 11lolckularn;1. Dostvpno.~ć kon1plctnil' zsekwcncjonowanych 1..:e110111ów ma . . . „ l • z11·1czcnie dh badai] ewoluev1· nycli. Po rai'. j)ll'l'Ws1.y 11101.cmv i'.al'i',qc porowll 0o ronll , ' J. , / . ' ~ . " "' , ' nic 1Hlj.cdy11czl' ocny. ak cale zestawy gcnow 11 ruznycli orga111zmow. l'o mz nyw.ic . . b . . . .. I I : , . •rZY lllOi.cmy tc:i. zau.q(· badać procesy. kt(1rc stcrup1 prY.ch1eg1crn cwoluq1 ca yc 1 piu i "
'
,
.
l
1):r.it:ki dost\:pności ko1 npld nic 1,sck W\'11cjrnH'.wa11ycli ~'.L'IH lllH 1\1' powstnla odą' Ima dysz11·111·1 o.e110111ika • <(;('Homnłrn od11os1 sic do• hada11 . 11a11kowych dot.vcvp 1"111<1 li·1
1.2. Gnnomikn i toolmilli wysokoprwp11slowo
li
w roY.woju technologii sekwe11cjonowania 1.bicgly si1· w czasie z pojawil'11ic 111 ,, 11 . 1H1 wycli, wysokopri'.cpustmvycl1 technik eksperylllcntal11ycl1. Jcdnq z najważ.11icjsY.yl'i1 te go typu technik jest eksperyllll'.llt mikrolllacierzowy, kil'iry poi'. wala 1rn jl'.dnoc:r.esny 110 miar poY.iomu ekspresji (tj. stt;ż.cnia lllRNA) tysi1:q ge1H'iw w komórce. PrY.ykladowo dl; 1 droi.di.y. Su<'cham11tyl'<'S <'<'l'l'l'isiue. których genom jest ko111plct11ic z.st:kw~·11cjonowanv. moi.e111y umieścić sondy dla ich ws1.ystkich gcmiw 11:1 jed11ylll chipie 111ikronwcin:r.y. Moż.c111y 11astęp11ic badać. w jaki sposr'>h :r.111ia11y w warnnlrnch hodowli krn1H)1rk 11;1i stan konH)1-ck 1.ail'i.11y od lii:r.y cyklu kolllrirkowcgo wplywaj1111a pui'.iumy ckspn·s.ii tych gcn<'iw. Krn11pkt11ic :r.sl'kwenljrn1owa11c genomy zmicniaj:1 z.ate111 sposlih prowadzc11i:1 bad:u] ckspt~ry111e11tal11ych i pozwalaj;111a rni'.wai.anic zagad11ic1i, kt6rych l1ad:111ic 11it' by Io wcześniej 1noż.liwe. · · „
1
l1111y111 wai.11y111 polc-111 bada1i. gd1.ic s:1 wykor1.ystyw;111c wysolrnpr:r.cp11slowc IL'•·h11i ki eksperymentalne. jest pn1komilrn. ksi lo na11ka ohcj11111j;1ca hada11i:1 prnlL'l>11111. o.v li kompletnego zestawu l1ialek w ko11Hircc. ( ll(\w11y111i 1t·cl111ikami ckspc1·y111cntal111'111i. które :r.11ajduj:1 tu i'.astosowa11iL'. sq dw11wy111i;1rowa l'lcklrul'orc1.a i.clow:1 w.ykol'!.ysl ~w;1 11<1 do roz.dzialu wiciu nii.nyl:li białek w ckstrakcil· ko1rn\rkowyn1 oraz spckirn111ciri:; 111;1 sowa wykori'.ystywa11a do ide11lylikowa11ia hialek na podstawie ich 111as c:r.qsll'l':t.kowych. Ponownil· zwróćmy uwagi:, i.L: dos1rp11ośl' ko111pk111.ic :rsekwl:11tjo11mva11ycli 1:c11rn;Hiw ma i lulaj pri'.cogr<>llllll: 1.11ac:rc11ic. po11il'\va:i 111asy cz:1stL'Cl.l;owc hialck •11.11:w:r.U11c i\\')' kor:r,yst:111ie111 spcktro11w1rii 111asowcj 1110,t•.:1 hyr:: hc1.pośrcd11io poniw11yw;111l· du 111:1.'; czqslL'c:r.kowych liialck. kll'>rych wyslqpic11ie jcsl oczekiwalll: 11:1 pnd:.t;;wiL· przc\\'idv wa11cgo w gcnon1iL' pulo:i.cnia udpowit:dnich olw:1rtvch rn111ck rnluv111. v\/ysokopri'.l'JlUSIOWl' techniki ckspcry111c11tal11c .dostan::r.aj:} O/!,l'l„llllll:j iloc;L·i danych. co slanowi nic lada wy:r.wanic dla hiuinl'ornialyk(>w. W jaki sposób 1.achowywltiowc· s:1 kluc:r.mw dln zapewnienia posti;p11 w badaniach ck:;peryrncn1:tl11ych i gd1.iL: algoryt111y ma;. ll'L'lllliki ckspery111c11tal11e Sw opulilikowanyd1 w ol;n·:;lonvL·h lalach. ktcir<' :r.:1 wicraj:1 :r.adanc slowa w tytule. liście ltasel l.l11czowych lub :·;1n·szc·1.l:11i1>. f'-1:1 rvs11nl.11 I.~ pr1.cdstawill110 lici'.h\· op11hlikow:111ych :1rlyL11lów (nara:;l:1j:11·1i tld 11 1;;1 1«11.11.) '"!111•.„i:) cych si1· do kilku jl111ic·s" (/'l'llOlllika) or:11.. .liioi11i'ur111:1tic«·:„ ( liioi1ilnr lllalyka) rośnie 11iL'111al 1v ly111 sa111y111 IL:lllpie. \.I/ obu p1·1.yp:1dk:wh w:.k:1i11iki rnu11•'!·'" pr:r.yrnst11 S rnku. „.l'rn1c·o111ic.„" 1p1·„tn>111il.:1) '" Sl\lst111kowo 11owa tl1.iL·d1.i11;1 hada11, st;id hrak jakichkolwiek :1r1yk1illi11· "'Jll:'"ii l'l'J:: I() ku. ('1.as podwojc11i:1 wy11osi tu o.·; rnld1 to 11ajs1.yhs1.)1 11·1.rw:t oh:.1T\\'tll\·:1111 11:"'"' d:111y"h 1.chr:111ych \\' 1:111. I .. l. I ,i,·:r.lia (l(lwol:iJ\ do :,luw:1 „111in11:11r:1v" \ 111i!.1"111:1< in; 1
\.:J. Glym jin;\ bioinformatyka?
1. Bowolticja inlorrnalyr.zna w nau\rncl1 biomoclycznych
13
naukowych w kolejnych lalach (podana w milionach artykułów). Aktywność naukowa dokladnicj liu.ha publikacji naukowych) rośnie również w sposób wykladnic1.y, co oznacza, i.e ahy nadqi.ać za postępem w 11m1ce nale:i.y czytać cora1. wi\~cej publikacji. Prz.chicg krz.ywej jest nicrnal dokładnie wykladnicz.y 1. czasem podwojenia 9,g roku. .Stąd wniosek, że krzywe od11os1.qCL: si\~ do szc1.ególowych zagadnie11 cechuje wzrost ;,decydowanie hard1.iej gwaltowny 11ii. w przypadku ogólnej wied1.y naukowej. W tym momencie czytelnik powinien być pod wystarczaj<\CO silnym wrażeniem istoty 1.agad11iL·1\ rnuawia11ych w tej ksi
V
\(Hiii
lllll
" )(·»
)(
Iii
·><
\t}i){)
jl)\).1
. . , ' . \, ''·ho H1blikowanych od 19HI ruku do pndanego nlkll. w k~óltys. L.I. I .<1<:1.11:1 l1ulia :111y!.t1l\l\\ 11.111 .o\\)L I . » >hl'ślo11c slowa. Dane· p<>chodz;1 I. 111· . 1· • . I .. ·I 11 11 ·;owych l11h ·;t1\•s1.n.c11111 wys \ Jlll.J
·t:
0 · ·li· ' , • • • . • przeb1co \I /.ywe1 Ill.t 1 · • ,, 11ycl1 lt:rrni1H)W 0 co 1iaJ1 11111 c.1 ri.w 1 wie ,osu . · ;·"" · \ roht) Filooenetyka 11· I · ·zy ·lloci-ri czas podwo1e!l1a JCc:l dosyc dlug.1 L . ' · L~ , · r;ik1cr wy, ,11 lllL. ·-, c . , , 1" . . il·, ,,,·1·11'>re·111ierwsze 1)llblikacje na podstawie badan · I· 111 · ··1·w1dv•cvp1n.111.H '. ' · 1c·st \VI.)'. 1.·t I ' „' ' ·„" » ' „. ·i. o hlk.:1 dl'kad artykuły wykor1.ys1ujqcl' dostt;p111"rlolt>!1,w1.11vcli popi 1.u 1 "1J•l \\ ci„ts' ' . · : , · . . I· , ·t·ltllich I .' ,.„I. : , . ,· . Vv\suki plwc!liL: prowadzone badania olH.:.111111.i:1 analtZ\: wv1nac1.:1111<1 ( r»<.ew I <•;'.l'. . . , : . . : „. : 1· '. nr;wiklanie 11il'kl(>rvd1 kon1rod11i.vl'i1 1.hiur<>\'<' sckwc·11cp, d·1.11:L1 c1":n111,1c„t lllll/. l\\L . . Wl'l.',„vj11yl'i1 :1sp<:ktJ>r(il.'!. krzywyl·h ocl11os1.qcycll _s11· du ok1cshlll)Ch , I I ;diranyl:li w i11dcksic cytmvan I t1i.l1wycli» 1.11:1jd11jc o:i<; n>wnic·i. l:1c1.n:1 lici. ><1 arty rn ow
7
.-,„.
l'oniewai. hioinl'or111atyka ci<1gk jesl wzgl\:dnic nową d1.icdzi11q nauki, cz.t;sto ludi.ie slawiaj
Cidyhy ta dcłi11iLcja uk:11.ala sit; 1.hyt krótka i 1.hyt og/>lna, to proponujemy nieco hardzil'j rn1.l1udowanq: llioi11/(1m111t.1•/ii1 jl'.s/ i11tcrdy.1·1y11li11amą d::frd::i1111111111ki olwi1111(jącl{: o m::11•1ij 1111'/0i/ o/Jlic:.:1·11im1·w·lt s/117.ąrw·lt do /)({d1111ia stmk1111)'. Ji111k1ji i 1•11•0/lllji ge111)11'. /Jiufrk i 1·u/vclt g1•11m111i11>, "' m::ll'1ij ll/l'/111/ 11',\'kor::ysty11•1111vcli do ::.urz.ą1h1111i11 i m1uli:'.y i1(/i1m1m:ii /Jiologic:;111'.i gro111ud::o//l:i 11· 1ok11 /1odmi ge110111ic:;11yclt orm'. />w/111i J>ro11•11r/:'.011yclt ~ ::11s10.1·m1•n11ii•111 11·ysokoprzc1111s11111•y1·lt fl•1·/111ik cksper\'1111•111u/11vclt. Jeśli taka dl'linicja jest ci:1gle zbyt ogólna, czytelnik powm1e11 uważnie prz.yjrzeć sil? spisowi treści tej ksiqi.ki i 1.wrl\cić uwag\: 11a wymienione lam zagadnienia, klóre (11aszyrn zdaniem) okn:ślajq is1011; hioinl'onnalyki.
-~JL 2'.wiądci między gem~tyką [~·woim::j~] mcD~Q~lmimTtą
l[ffa:z
ill(][miar.yjm],
hi(Dinfonmaly~c~1
1.4.1. Trnchę historii.„. Cienelyka populacyj11;1 ohcj11111jc badania 1.rnic1111ości gctłllW w populacji. Fu11da1m·111al11c z11ac1.enil' w gcnl'lycc populacyjnej odgrywaj;11.agad11ie11ia doboru naluralnego, nH1lacji ora1. dryfu gc11l'lyc1,11L't10. /\ltl'malywne warianty te(!.o samego genn naz.ywamv allelami. Podsta~vy l~oret)10.1ll' cg1:11e1yki pl;pulacyj1ll'j w-d11;:ej rnicr;e \~1 ykor1.ystujL~ si;: do inlcr-
14
I. Howol11cja informatyczna w m1111
prctacji danych ckspcryn1cnlalnych dolyc:r.<1cych ro:r.kladu c:r.1'.slości wysln>owania alleli oraz do analizy :r.achowm1 ro:r.wa:i.ancj grupy organi:r.m(>W (np. wy:r.nac:r.anic dcktywncj wielkości populacji, schcmal(lW 1nigracji, stopnia wyst1~powania chowu wsobnego). Genetyka populacyjna ma siat us dobrze ugruntowanej dzicd:r.iny nauki, a jej podstawy :r.uslaly stwor:r.011c przez Ronalda Fischera oraz Sewałla Wrighta w pierwsi.ej połowic XX wicku. Podstawy te wyprzcdzajq w c:r.asie erę generowania i analizy danych sekWL'.ncyjnych. Mrcj pr:r.edn1iote111 hada1i s;1 c1.:1stec:r.ki, a celem sdiaraktcry1.owanie 111ccha11i1.11H\w 111ulacji i selekcji :r.ad1od1.:1cyeh na pozirn11ic sekwencji. Istnieje wiele genów. k!t\rc zostały 1.sek wencjonowanc dla du:i.ej lic:r.hy gatu11k(1w. To o'!.nao.a 1.wykk, i.L'. dysponujemy rcprc/.L'lllalyw11y111 pr'!.ykladem pojcdync'/cgo gc11u dla ka:i.tkgn 1. galu11k(>1v. Zaledwit; dla kilku galunk\\w jest doslc;pna obszerna i11forrnacja o wcwn:1tr1.galt1nkowym zrt'1:i.nicowaniu 11a po:r.irnnie sL·kwcncji genomu (np. ludi.ie i 111us1.ka owocowa). Zatem w ewolucji 111olekularnej nacisk klad1.ie si1· na prowad:r.cni\; pon'iwnawczych a11ali1. c:r.;1sleczek mię dzy n'>:i.nymi gatunkami. natomiast genetyka populacyjna zajmuje si1: :r.wykle badaniem 1.n\:i.nicowania gene!yezncgo u osobników lego samego galunku. Za narod:r.iny ewolucji molekularnej jako 11owcj d1.ied1.iny nauki ci.asami u:r.naje sic; opublikowanie artykułu /',ucke.rkandla i Pauli11ga (I ()(15 ). ·nun po r:v. pierwszy wykorzystano SL'.kwcncjL' hiall'k do konslrukcji drzewa filogcnetyc:r.11cgo, eo sprawiło, i.c wiele os\\h :r.ac1.1:lo postr:r.egać sekwencje w kategoriach ilościowych. W roku (l)(15 sformulowano prawo Moore· a, a kompulery 1.aez1~ly odgrywać islolnq ml\'. w bmlaniach naukowych. W istocie biologia molekularna 1.yskala na wml:r.e w naukach hiologic:r.11yd1 w lym sa1ny111 czasie, gdy komputery staw;lly się wai.nc w wyn1iar1.c spolcc1.ny111. rv'loi.c111y n'iw11ic:i. argumenloWaL', :i.e i !Hll.'/.:\IL'k hiuinfornialyki dalujc :;i\; 11a rok I <)(15. l'icrws1.c wydanie ksi;1:i.ki 1\//((.1· ()/' f'mtl'ill Se1111e11ce nnd Stm1·11m' opracowanej pr:r.e1. l\ilargarcl Dayholl pojawiło si~: w wc·rsji drukowanej w I l)(i'.i roku. At/us sial sil'. p(ii.nicj podstaw;1, 11a której zb11dowa110 hai.~' danych PSD-l'IR zawic:rajw::1 sekwencje hiall'k (Wu i i11., 2U02J. Wydaje si~· j,·d11ak. :i.t' laka i11terprclacja stanowi 11adui.ycic. Ter111i11 „hioinfon11alyka" nie hyl u:i.ywa11y w l:liach s1.cśt'.'dziL:si:11ych XX wicku i, /. wyj:1lLicn1 kilku pionierów. bioinfonnalyka niL' liyla wtedy aklyw11:1 d1.ied1.i11:1 hada1'1. Bioinrornn11ylw -;.ac:r.»lo postr1.cg:1L' jako odr1:b1n1 dyscyplin\'. nauki dopiero b:ml1.o niedawno. l\yl<• lo wy11ikiern rndz:icc:go si1: pr1.ekonania, :i.ew celu badania u1~ro11u1ycli ilości udosli,:p11ianych hiologic!.l1ych danych sckwcncj11ych potrzeba wysuL'L' L:kL1yw11ych technik ohlic:r.c.niowy\'11. Jeśli n1oi.11a powiedzie(, :i.<: biologia 111okkularn:1 narodziła si1: w lylll s:11ny111 c:r.asie. co i11rormatyka, Io a11;tlogio.nie 1no'i.11a ~;twierdzi(, 'it• hioinrurnwtyka na-
IA. Zwi:1zki
między
qe11clyk;\ populacyjm\, nwolw;j;1 molnkulm1i:1 oraz 1Jioi11fo1 malyl«1
1,.,)
rodziła . , „ . 1110111·1 . . . . I·się w . tym samylll c1.asiL'., eo l11tcr · ne·t · 'I'•co1clyc11l!L' sohi, 1 ·· · 111cn1e )JO 1og1c1.nyeh hai. d·uiych s +iv, . . .I 1 · · ·. .· • · e wyo Jraz1c 1sl . . . · ' · · · c' · Ullypiyc 1 )L'/. l11lernelu 1 . I . J· I1 1 1 o wiele 111n1e1 prz)1d· 1 . I .·, • •. . „:r.yslalllc . , .t m, IO\~ iem 1 ,01 z lnz th11ycil I '.u I0 l n.i' . Y.Y)y one wll'd\'. · ' · ' ))' J)' og1a111c1.onL' wyl:IL'/.-nic do grupy tych użylkowllil·ów . ir~ I· 1 ·Y \ 1og:1 poczlow:1 otrl"JllllJ"I ·tl 1 1· . ' ' 1'\ · . wydama ha:r. dallych. Wyobnźlll)' S( .. t , . . · . ·.> • • • ' 11a 11.aqe 1 11owc· · ' · • l 1)IC Cil I OSIH\CY z L'/'l"el 11 ·( . I go miesiqca pudel z danymi /\rnos B· . . ·I . ' · : "·'. s os t oslarc1.auych ka:i.dc-. , .i11oc I ze s-;wa1C'1rsk1epo i11slyl 11 t I .. 1· · · · '. · ·,„ (!lairoeh, 2000) podał :ie w ,,,, r . , · . li 110111 orlllalyki 19 ' '. ,,,, u 1\li O\VC/.es11a WL'rSJ'I lllłosl 'l)ll" ,· . . danych gcn(>w hyla dosl'lrtTtll'l . 'i 1 "' · \. l.tlle.J przez 111ch ha1.y . .. . . . . • " , 11 •1. - l1ys 1\Il'( 1mel. . . 1 Jak wyohd·tloby I, · ::· " '. zie danych nowych sek WL'nci·i .eś li 1 . , ·11 _ . r t po11owa111c w b;1 · . · · '· 1 " lll Y10 1iy JlOL'l.ly clcklru111c111c·1 0 ". ! „ ., ty1111110111e11ciL' picrwsiy ·iulor t·· 1„„.- 1„. · . · . 1.11. 11lu11cl11: ()W . I. . ·. • L.J ,s1.11.\I 1.aczy11a SI\' czul- slarv i nic1Hil11cl1 ny. /.iwnym z )Je!~1c111 okolic·'1l\lS'L·1· " I)0\VIL'lll · · w. I<)(· c . I N' ,, ' ' 111·\!\l·,·1 ,,J SI\' w roku Jl)~\5. pełen pozy1yw11c1· cncroii 11i „ 11·. I . . . . . u l\hll . wdl1_1go polc111, · · · · · · :-· s.i ,ot Y p10°1:1111ow 111ctl·u111 110 I i" · d1.1a 1ac 11<1 (1wc1.eś11ic dosti;irn"t·lt h'1111pt1 · , „ , 1I t·1lli'\'j .. '"llHll'Y ('lll" · "/1 ' · . · · ' orc 1li.Il .> · \'!1111aly 1 I()}\() ktoś ).yC1.liwy pok'i!'ll rnu . i"il · . .. · ' c" ic1111 n11111•s) . •, roku . · - . 11·· ' ' 1 spo~,o)111ywa 1 ' " SI\' r1'C111coo Il · I · · loloczncoo czyli ysil-i ;\ t . · . · · - · ,, talllpll alura slolok11. '" ' · 111 · · ·' · 11 01 pa1111~'.la Io wydarzenie do" I li • I. , I : . . . mys1.k1 wraz/, ro1.1H1c11Ticn1 )Jl.'"1111"1 . . . "\( i.i L. )„l yz ;.at?.;!l 111yw;w · ·· · · "' • swoieJ rn;pnwy I< 1·1 · ·1 · ,· p. · · · niego świadornośc', :i.c llicnnl c"tl" .,. ·. · · • __
1.4.2. !Ewolucyjne podstawy bioinffmmaty!d Jak wc1.eśnicj wspolll11ia110, hioinf'onnal drn to ,. . . , . . . . , . , .. tyczy hioi11ron11atvki tu do c:r "'(>., ·1 .) llU\\.l d1.1.uJ1.111.i h.ida11 ..'i kom ks1q:l.ka do . . · · .L,„ JCS 11.tlli polr1.eh1n w1ed!'I ·1· . „ ·I . . l;il(Jch pik cwoluc1"1 molL·l·t1i·11·11· -. I ' . " os .i1s1.yL l 1.agad1m·111:1d1. · . ' ' • d 1 1•e11ety \,.p.i I vw.inc w odcrw·111111 0 I . I „ „ " · · .. . . ' lo,1esl 1.arnies:r.o.aiie niciwtl ·, . · < ewo llcJI · ,)(W1enl1.c11ic ' 11 1" 11.\ 1)'lll !J(l( 1l'\'L'i'lll 1(li L'W li ,-· . ' · · · , . \ ucp i my row11w1. pozwoliliśrnv sobie zacytowaL' ·e lul'IJ. '/ .· . , . · ·1 '. · · 1owoc 1ow, 1d01c wkrolcc st·n · ". · I · · · nak lroch~'. 1.111od"fikm1"1'· 1 "f'. , I .. 1· . '. • i.1 SI\ ,1asnc, c 1c1clihyśmy je jed . J ''·--"IL 11 )Jo111 01111alyn: 111c 111· ·. „ ·, T · ... w oderwaniu od cwolt1L'J„1" l't>''ll''l„ I ·11 . I .i SL 11„u, .JLS i Jl:,1 io1.patrywa1w · " '· <1.111v <1 ·1 pr1y h I · I1• · · · · .Jed11:1 z podslawm~_l'ch i 11·11·c,1·s:1··1· .· '.'I . ._ '• \ ow. 'o1c 111.asad1nap1t:ik:i1.111i:n11·. • '· ·· ·· LJ s usow·111ych 11ro ··cit · . I · · 1. wy1.1rnc1.cnie dolYlS\l\'"11'1 11·11· s .,·. „, I • . . ce 11 11- 110111 orn1;1I Yt'<' jcsl "'" '.c,we1w11 'r'I)' J ··· · „ · · wycli wykorzys111·t· si'. . '. , , '.. . .< i>p<1sowywa11111 sckwc·11q1 ;1rninokw:iso. . · .' .I · \ S) sl1111 p1111k1;1cp. t;iki jak np. 111:1l'icr; 1'1\M „ 1 ·. . . 1 ny poszcze1•óln"L'h l"'S''t ·11111·111 )\1\1:\SllWl't'li J·. : , „ , "Ili..• !<\ . (1op:1sowa111;1 . ' ., } ~·'·' / 1·tl111. I ('''"'i· ' . ll'S1.la1111. !'akie sys1e111v 1>u11l 1· .„ I . „ . , ' 11 ,„.11nv1111 uh 11111v111• ' · 'dl.Jl WYWO\ /;I SI\: I. llHHkli r'W lu·,· , ·J \". · . Pllll((Owe s;1przy1.11awa1w1nn I .,„ I. . . . u C\Jll)< I. :1ysok1c '""11_1 ' I' . ' . li I I CS/. dlll l I IUk \V'lSOW\'\'li I I ' . I . !He Jt:d11;1 Ila druo;1 IV loku cwolw"i s I . .. . •,. .' , 'o1c li eg;1_1;i 1vv111i:1 w_c sq przy1.naw:;1;c 11·1ro111 r··s·'i ,-.1 .' \' ',we11q1 b1alka. f"li:-:ki« luh 11_j„11111<: '"·"11_1· 1>1•11'.1" (' · · L. ,_ .11111110 ,w;i:.:owvch klorl' "' . . ·. ·. , .. .l(ly dopasowywujellly sekwc11cjc RN/\ „. ' " · ,, ·„ . "'' ;.i_1111t 111-.i111 łi.11d>t1 r:;.;1dl-.1•. rl.\'1;i d1111'." '· . '. \ ,rn1st i1~.ityw11a or:11. z leg.u. ·>.t: w lyt·h l'rag111(·111:wli ::1111kl>.1n·.
I. Huwolucja informalyi:zna w 11aul
. I „ s i·1row·111c ohscrwow:111c podstawi1.:nia ma-;'.dii« ,,t11HiWi:1daj:1<"' ::ulm: 11ary :r.asa< s.1.· ł.·. , '. . .lol·l:1dll'1cl1 do11asowa1·1 sekwencji . . . , .„ . 1 ;.alt:Ill wy1.11.1lJ.c.1l1L. 1 ' , -' „ . . l'l «ii:1r:1L1<'1 1,lllll!'< IL"ll ).Ili). 1 ' ·. . . . • " . vollll"Ji sekwe11q1 na po1.1on11t: 1 \ ·'/,arn\v110 . li I' .,1 wyniaoa 1.101.11m1L 111.1 L v " · · " I , " . · 1 1 '1 l a 1Htl l 1 ,, J1h.
„/
I
{'!
•
111ulck11larny111. . L'/L'"OS . . ()WY 1)j,\l\L „ •. s ·l·w1.:nci·i bioloPic:r.ncj, picrws1«1 . I. '."I> .1. L \ -. '" . Kic:dy chn:rny l Iowiec /.ll'L ·'I · · ·:.„ .' " «- . : ·I· , -·i I tóre s:1 do niej po• -. • • • . , . i „ 1·. ie w haz1e danych ta 1dc 1l se' wenc.1 . ' . .. • n:":;.q c1.yn11osc.1.1.Jt.sl W) s1.11 "111 . . l . , . v·111i motyw·u11i sckwencyp1yrn1, klo, 'I ".· „ "'lll JCSll'SlllY /alll CIL'.SOv' ' . . dohnc:. \·V s1.c1.c·;.•.o 11m.c I 1 1·\" . · · · : . . - , bi·dcl Wynika to slwL i.e wa:r.111.: 1'l 1Ot 11·111 \- ' '· · · · ·lnr·tl 1ery1u Pl ca 1 r« :-:: 1::ilnw ko11s1:rw:11ywrn: 1 ' ' ' - · :. , W bazach 1 L·wolucji l I s ·I we nep S:j 1ad1owywa111 w 1()dl .. I. r /. n1'i.11ych \H>wo1ow r:1gine11 > . c ;·' )Sl:l'I·: 1;1~iNTS i lnll:rl'rn qmr. roi.di„ 5), w:ri.ne, d:111y«li rnd1.111 ill:iil'L. t:1Lwll 1.ik I j,( , . :· „ I ·I· iovnn<' na 1mdstawic an:tlizow:111ych . . . llVW"'«'l·wcllCYJllLS•)lL.lll ' „ ::il111i: Lo11s1.·rw:1ty\·'..'il< 1111 . '" ' : '. .. ·tyw·iiic do Jlr!.ypisywania sckwcncp . ·I „ .„ I "i kl· ·1 11asl«pn1c- wy 1,rn i.ys ' · . 'i< •p:1::< .w:111 " , . . . . ·t t t·1 ·1 homoloi·•h Sek wc11cic na:r.ywa. :" . \\'Ul<.. li. li·r ,„, wy 1' ,l . cciL·111 ,,,,, u , ,,·· · . d<> o\..rc:;lonyc 11 r<•L 11.1ii. ' 111 „ 0 . -· 11 11 ·1: . · . . 1 .· iiuodk'i lj jeśli 1.wią1.ki lllł\'.· 1 . . . T WY\'ftldf'i sw m wspo nu•.o . • · . · . 1 111v- l11>111oloi.•,1t·1.11y. 1111 " · : SI\' . \v. to 1,11 11rzvczynq . '.ewo liic"ii - <';•·sto . - J<'.s. I . :.. ·. . J\V'llll'l · .„ . - IL'.gll, ' 11i111i :::) WVlllkil'lll Il.' l 10/.lllU ' 1« ~'I .- or1111il' W)'Sl\:p11j1· je.dell ko11scrwatyW· I ·1l 1L'i1 lll'tlL·k w ()dl s Olll I ·-· . . . I „ 'i.« w ::1' I'WL'lll'jl w .·;z) s ' . ' .· "11«· „ .I . llooic111e . .Jeśli 1Hotyw _ie.sł harc /.ll , ·,. I" I 1: 1..vs 1 vslk1« lL> h1.1 "' s.1 H•llH "' · · . . . · · 11v 111\ll)'\v .1c:.1 .id. · \ · "· \)OW"t·il' widokrot111c 1 111c1.alc:r.111c „ . . . . .. . ,„ 'i. w toku ewo 111cp 111og 1 01 1 ·' ' . . i.1t'ltl.i. i:·:l1lll.'.I" :.1„111„.i . .L . • l I ll«1l""O nie1w,1kle w:rim· jest odrti·i.n1t:111c przy. I I. li ·I 1 (i'('T\V''•"'l'lhtpt . ' .,., ... -' ·1 . 1 1v ru111yc 1 >1a ,:11. • „ '" • . .. I· .. , 'IH"li od lllldobic11stw wy111 'aF1' · '" . ' I " li ·d·1cvl'l1 W)'lll 1 ,1u11 ,011WL1l-.L . 11adk»W)'L' Il p••< I<1 I1w11:; \, I '_ ·. . . . . I' . „ I. ·1 l·l·111\1.ch rodzin hiakk /,111icr1.a za. " 1 ·iq·i1-e1 ,01.wn1 M · ' . · . · · . 1 .„ 101.1 «yt·lt /. pr1.chwg11 cwouc.11 ie . '.. :_' „ I· .iwych hornolol',tiw d1.i1:ki dokonywarnu . I I lw1·1n1·1 wvk1yw.11H.1 p1.1WL I. „ I. „ 1,·111 w I\ll'rt111 ,11 11 a · · · ·„.„ : . . . . I· .. / Jadkowvrni i r/.L'L'l.ywistyini pod1111t:11l1:ird1.i,·j jL:d110/.nao.11ych n11.ro1.111cn llll\ t 1.y P1I.) I stw:1111i w s1:kwc11cjach. . .. , , . I· ich •:truktur l>i:tlck. C"l.\'.Slo obserwuje si\'., 'i.c i'odoll11.: SjHlslrzc:r.c111:1 dutyci"1 IJ,1/. l ,lll) ·1 „ . • ·how·ui·i "lruktur<;. Przykładowo . I. Ił· l lll'l.l'l sto"Uilkowo l 1o 111.c 1„1c . ' ' " d:ii<'k<> spo I:r<>Wlli!lllC i1a ,: "' . .·' I 1·1 ·1l1)1c'1·1!"1t• ,„1111e w dwl'd1 bialkach, · · I j' · 1 · r uszy > 111rn2. ' ' · ·" liu.. 1•:1 i wz;.',10l1H'. polo;.elll<.' ie is l11cp slr11kt111 \' l i . I ' ' .I"" _" ·• . . , .. ·hvcn.:i'i drnncny le po zwrn1<;. ·vl'li . \ll>\· "' ' J • d1q.lik:1c1:i' l:h• ''.' :111w' '' ' I l.. : ·11i·1 wi·.1ryood11ych 1.as(1\l1iw inl'onna'l\'l'idll' /<'W CC 11 \V\ll/.l. • · . t« • \ · · · /.:1w::1.1· 11:1 1«I.V 1111c·c· 11:1 ' . ' .. . . „ , •· . l111l1L'll'tl'h Lo11it:L"/.lll'. jest do )i'C ··1i" ::1·Lw1 lll'J'.l'·I> l>i:ikk. ich struklt1r1.c P';'.t:st111 lllltJ I t . . . . · · · I · 'iii' t'\l't li!"'"11 I> i: dcl\. /I'! J/lllllll'lll<: 111<«. 1:1111/.I 11 < . „
•
.
> '[
i"
"„.
„
„
•
·1.11. Zwii\7.ki
miętlzy
11e1111tyl(iJ
populacyjną
owoh1cj;1 rnololmla111:1 oraz hioinfonnalylq
'17
W oslal11id1 lalach hada11ia ewolucyjne stały si\?' również moi.li we do pr:t.cprowad1,;1„ nia na po1.iomic całych genolll(lW. Jeśli chcerny porównywać genomy dwóch gatunków, to uu.ywiścic nale'i.y spylać, kltir1.: /. genów wysl<;puj11 w obu gatunkach. Odpowie(!;, na takie: pylanil' mo'i.e hyl' 1.askakuj:1co trudna. Dla każdego :t. gen6w u jednego gatunku 11alci.y ustalić c/.y istnieje gt:u do niego holllologic'/.lly u drugiego galuuku. Wykrywanie prnlohic11slwa sekwencji pochodzących 1. ró'i.nyl'.11 galunków mo'i.c być trudne 1. powodu licznych zmian ewolucyjnych, które 1.aszly od chwili rozdi.iclcnia się linii c\.vol11cyjnycl1 gatunków. Vv'i\~kszość gcuonHiw 1.awiera lic1.nc otwarte ra1nki odczytu, ktt'lrc s:111wa'i.a11e 1.a geny, ak dla kttirych nic moi.na 1.nald.ć podobnych sekwencji u innych galunk(lW. Stanowi Io dow(Jd 1.artiwno ogranic1.1.:1i obecnie stosowanych metod, jak i stopnia 1.rt'l'i.nicowania sekwc:ncji powstałego w loku cwol11cji rnolekularnej. Nawet jeśli jcstcś111y w stanie wykryc' podobic1\slwo, to dccy1.ja o tym, które geny sq homologic1.11c, po/.ostajl' ci:1glc Irmina. Wiek genomów 1.awicra rod1.iny 1.duplikowanych genów, klór,: c1.1.·sto n\'i.ni;1 si\'. nic'.CO pcl11irn1q l'unkcjq luh miejscami ekspresji w organi1.rnic. Spokrew11io11e t'.Woli1cyjnie Sc'.kwc11cjt: :t. jednego organizmu, kllirych linie ewolucyjne rozcs1.ly si\'. w wyniku duplikacji gc1111, S<) 1ia1.ywa11e paralogami, w odró'i.nicni11 od on·lołog<'iw, ktt'lrych wysti;powanic u niż11ych orga11i'/.ll1ów jest wynikit:1n ro:t.d1.ielcnia si\~ gatunków, czyli spcejac,ji. Duplikacja 1J107.e 1.aclwdzić nie1.a!Gż11ie \V rM.nych liniach ,·wnl11cyj11ych, stqd pojedynczy gen u jednego 1. gat1111IJlw mo'i.e być homologic1.ny do całej rml1.iny grntiw 11 innych gatunków. J\ltcrnatyw11ic, jeśli duplikacja naslqpila 11 wsp1il1l<:go przodka. wtedy oba gatunki powinny mieć kopi<; kai.dcgo c1.lonka rml1.i11y gent\w o ile oczywiście pewne geny nie 1.ostaly usunięte w loku ewolucji w jednym lub drngim gatunku. Kolejny111 1.agadnicniL'.m do rozważenia. s1.c1.ególuie w przypadku baklnii, jest 1.dolnośc' pozyskiwania pri.l'./. gcnnrny nowych gent'iw na drod/.c po1.iornego trnm:fl'rn DN/\ 1. niespokrewnionych gatunków. Port'iw11anie sekwencji mo'i.e wledy 11icpodwa'i.al11ie wska1,ać na istnienie homologii mi1:d1.y genarni orga11i:r.mów, ktw w ohtThic grup gatunków i 1.rn1.umienic, w jaki spos'i.nicowania sekwencji w populacjach, a lakżc 111cd1:111i1.1ntiw rn1.pr1.estr1.clliania si\~ nowych wariant(>\v sekwt:ncji w populacjach. Po 11rucho111ie11iu prngr:11nu kolllp11lerowcgo 1. 1.:11niarcm pr1.cprmvad1.cllia molekularnej a11ali1.y lilogcnctyc/.ncj, nm'i.c:my postawić pri.ykladowe pytanie, c1.y określona sekwencja 1. ufowieka jc:;t hardziej podohn:1 do odpowiedniej sekwencji /, s1.yrnp:111sa lub goryla. Naló.y pr1.y tym parnii;tać, 'i.e sdc\~(cr;cjc·\tt;·1\1,lpgły zn\~.nicowaniu w wyniku //
'i'
•
'
'1J1,,~1«:'
: I. nowolucja infor111alycz11a w naukach ilio111odycznycll
10
utrwalenia si\'. nowych warianlów sekwencji w odpowiednich populacjach . .lcdnoczc.foic nic powinniśmy zapominać, i.c 1.1ianL'. warianty sekwencji rcpre1.cntuj;1 pojcdync:t.L'. osobniki 1. populacji. Istniej;\ pewne d:t.icdziny bioinfor111atyki. kt(\rc są bc1.pośrednio związane z gcnciyką populaeyjm1 u.łowicka. Gro111adzimy obecnie ogronl!HJ ilość informacji o zmienności sekwencji gcn(>w w populacji ludzkiej, s1.e1.ególnie dla· przypadków, kiedy zmienność ta wiąże si\~ /. chorobami d1.icdzicznymi. Niektóre z dokumentowanych 1.mian 111og:1 być dui.c, jak 1ia przykład delecje cz1:ści genu lub chro111oso111u, inne natomiast 111ogq mil'.Ć charakter polimorli1.1nu pojcdym:1.ego nukkolydu (ang. singli' 111wleoridc 110/i11w171!tis111. SNP, wym. snip), ktL1ry przejawia sii,; wysti,;powaniem rói.nych nuklcotyd(lw 1ia określonej po:t.ycji w sekwencji genu. Bazy danych SNP i11ogą zawierać nil'.l.wyklc istotne dla 111cdycyny i przcrnyslu rarnwccutyc1.11c1_io inrormacjc. w l'ar111akogc11on1icc bada si1~ 1.wi:11.ck 111i\~d1.y tyn1, w jaki sposób rói.ni pacjL'.IKi rcagujq na pr:t.chicg określonej kuracji l'armakologicrncj a warianlcm posiadanych pr1.c1. nich alleli. Badania lt:go typu sq prowad1.one 1. 11ad1.iej<1. i.c kmac.il: fonnakologiu.n:1 111oi.na dopasować do pro li lu genetycznego pacjenta. Wicie wai.nych chon)h nic jest jednak powrn.lowa1w pr1.u. pojcdync1.y gL:1i. Dlatego istotne jest :t.ro:t.llll!icnic w jaki sposób l<1u.ny L'idd rlli.nic na pw.ycjad1 w sekwencjach wiciu genów wplywa iw podatność określonych pacjcnltiw na n1i.norodnc schorzenia, a rnzw6j technik ohlio.cniowych zwiqzanycli 1. zar1.;1dzanil'.111 danymi dotyc1.;1cyrni SN!' ora1. ich analiz:1 stanowi wai.nc pole :t.ast1Jsmva1ł hi o i 11 l'onnat yk i.
Ulorntura·
Uternturn J\vise, .I.('. I lJlJ•I. Aloll'c11/ar il/arkers. Na111ra/ lli.\'/on', on,/ /•:l'Olulion. New York: ( ·1i„pinan and I lali. · llnirocl1. 1\. 2000..'iercndipity in bioinfonllalics: Tlw 1ribnh1ions or ·1 Swis i· · r · . · .·. I . ting 1i1ncs. /Jioit~/(>nJ1<1fi('s, łlł: ·IB--(FI. ' ' ' ' '~ lłlllll Ollll.tliu.in t 11ougl1 cxc1 llcnso11. I ).i\., Karsch-Mizrachi . .J„ l .ip111<1n. I l..I„ ( )stl'll. .I„ and Whcdcr. I l.l .. "/.Otl.\. < irnBank. Nucie i« J\t'ids lfr.1·eon-h, 31: 2..l- 7.
Cnrp<'I. I'., Scrnat, I'.,< ionzy, .I.. and Kahn. I> ..WOO. l'rol lo1n a11rl l'1·1il )1,111 .( ·( ,·. ·1·lHl Is ror pro!ei11 du111;1i11 analy.ids :md wliole gcno111e co1npariso11s. N11c/eic 1\1'ids Nc'.V<'t111.·J,, 2g: .J(l'/ ~9. lit 1· p: I I pn"!'"". t ou I 011::•·. :i n 1-;1 . r: 1:/ 1•JJJ
„,,,, .
Miyaz:1ki, S .. Sugawara.11.. Ni\ Il„lali:llik or.l:ipan (illlll.I) in \~·li .. N11cleic 1\cids Nes<'r1Jd1, J I: 1.l I h. Moni<'. (i.I'.. llJ(i:i. ('ra1n1ni11g 1norc co111poll<'llls 011!<1 inl<')'.r"lcd circ 11 i1s.
F/,-,·1ni1Jii·s.
Jl!i~)I: 11•1 I"/.
Si"•'SSrT. (i„ Baker. 'Y./., van dcn Hnick. i\ .. < «nci" !'"stor. !VI.. J<„n 1 . ( ·.. l
,„
Nr'.1·1·111d1.
31: l'/-22.
.
1
..
Wu. (:.I I.. I l11a11g, I I., 1\nni11sk i. I .„ ( ·„strn-·1\lvc<1r. J .. ('hen. Y.. I lu.'/../... I .cd In'. R.S .. I .t•wis !\ ( · M<'W\''" ',I.\~.. Il:: Stll.l'k, !Ul., 't:'ugita. i\ .. Vinay:1ka, C.I\.. Ych, 1..1 .. , Zlliln,1; . .I„ ;1111i 1i„ri;'cr. „oo.. ._ I hl l 10".-111 111101111.111011 lscsou1n·: 1\11 1111l'.gr<1ll'd public l"l'.SOlllCI' or 1'1111ctional :111111il;ilio11 ol prull'lllS, 1\!ttc/('/(' !\('fds Nest'(IJi ·h. JO: 35 '/. 11 t I p: //1 i.i L . qt '() 1 je! r •\\.'11. 1:1 !t ! /.
w«::
,()"''."\!:
!
/,uckcrLa11dl, E„ arni P:iuling, L. llJ()'.). l·:vol111ionary divcrgl'lll't' and nnl\'l'lg{·1w1· in 11rutcim;. 111 V Hn·su11. ;ind 11..1. Vogel (l'ds. ). 1'.'1·oh•i11g ( ;""''·'' 1111,/ l'r<1l<'i11s. pp. . New Yu1L ;\«;idcniic l'rcs: ..
Podsumowanie llo:ic hiologiu.nej inf'or111acji dotycz:1ccj st·kwc11cji rośnie w ternpil' wykladniczylll. Metody obliu.c11iowc odgrywaj:} coraz wi~kszq roli; w naukach biulogio.11yd1. Ku11ic'.O.llYlll :;lajc si1: rozw
ohl'cnic wiclotua kon1pklnic zsekwcncjouowany1ni ge1101na1ni, sZC/,l'p.t\lnic haktcryj11yn1l.
wi1:c 111oi.c1Hy 1.acz:ić rorn1ulowat' pyta11ia 11atury cwol11cyj111·j 11a p111.irn11i1.' gc111111mwy111. W tej ksiqi.cc szczcglilnq uwa1;11 pr1.ywi111.11j1.'lll)' wlaś11ie do cwol11cyj11yd1 aspd:t(1w hioi11rm111atyki.
I. I.
Allali1.a krzywych w~klad11io.cgo pu.yrnslu ilości danyd1 :;tanowi dohr;1 ok<1;j •. 1 <1hy pr:t.ypolllmcc sobie pewne podstawowc'. /.agadnicllia /. 111:1tc111atyki IH;d
-
NU)
No L'.Xp(rl ).
No oz1rnc1.a tu w:1rtość N (I) w chwili poc1.
11r1.yros.tu danych 1.dl'fi11imvaliś111y j;il;u wiclkośL:_ o 1:1<·,r:i N iii·ii·ks;.: 1 n1ku. a 1.atc·111 N(! I Il cxp(r l. Nu!
Jeśli r1.cc1.ywihl·ir' ilośt' tlanvch rnś11ic w sp\1sóh wvkl<1d 11 ic1.y, t() , 11 SUJlL:k
jest /.<1ws1.v jc·d11ak0\;'Y· 11ic1;1ic).11ic od c1.as11.
11·
j:iki; 11 .''.tl
::In
11 ·.i·i.n:wi:llll\.
. 1. nowolucjn informatyczna
w naul
/\ltcrnatyw11y111 sposohclll wyrai.cuia wykladuic1.cgo pn·.yrostu
ilości
danych je;;(
1.ak:imi.~ć
Kolcjnq wy1.11ac1.a11<1 przez nas wiclkościq był czas podwojenia T. Do obłic1.enia '/' wy111aga111y, aby ilość danych po ci.asie'/' była dwukrntuie wivksm od poc1.qtkowcj ilości da11yd1: N('!' l
No
U.2.
St<1d 1"/' 1112. a 1.alL'Jll '/' = 1112/r. k.\li co.< 1: pr1.L'l !stawionego wywodu 11ic jest oc1.ywistL.'., to 1.11ak. i.e c1.ytelnik powi 11ie11 od::wic/.vć swoj:1 wicd1.1: o l'u11kcjach wykladnio.ych i logaryt111ach. l'o11HlCll<' w ty1ll ~du Jll;,gq byt'.· wsk:r1.rai. 1.2 do :;por1.qdzenia własnych wykresów. i'ia wykresach podanych w 1y111 rw.d1.iale N pr1.edstawiono jako runkcjv czasu. a :;kala osi pionowej jest logaryt111iczna. D1.ivki temu otr1.yurnjcrny l'unkcji; lntNl
Lt
! ..!.
c ...
lntNul ·l·rl.
a 11a1:hyk11ic· prostej jest n°>WllL' r. łuny1n sposohclll pr1nlstawicnia tych danych jest ohlic;.L'.llic 1.a po111LH.' w1.rnst11 /. 1.adauia 1.J rnoglohy dac' si1: obronić w pr1.ypaclku rm.palrywania wzrostu wiclko.~ci populacji królikc.)W (dysponuj:1cych nicogrnniC1.011y111 doslq1c1n do poi.ywienia). kdnak brakuje jakil'l1kolwick powml(iw, dla kt(iryd1 wielkość h;r,1.y dauycli ( ienBallk luli lici.ha tra1r1.yslor1\w w procesorach
Zadania
21
powinna zwi<;kszać si<; w spos
N(/)=;\ + 81, N {I) c= At" (dla wartości k ró:i.nych od I), N{I) c= 1\ + B In(!).
W ka:i.dyrn przypadku !I, JJ i k s:i stałymi, które wyznacza się, uw1.gli;duiaj<1c dopasowania odpowicduich funkcji do posiadauych danych. Spróbuj pr1.eprowad1.ić dopasowanie dauych 1. tab. I. I i I .'2, stosujqc jeden z powyi.szych modeli. C1.y prawd<] jest, że rnodcl w1.rostu wykladniczcgo najlepiej opisuje charakter /.mian w auałizowanych danych? W jaki sposób naló.aloby spor1.:1dzić wykres, na którym puukty pomiarowe b~~d:1 ukladać si1: w linii prostej przy zaloi.eniu, :i.c mamy 1.biór danych, których 1.micnność opisujL: jeden;, omawianych modeli?
· 2.1. St111kl\11a kwaoów 11111
zast;1piona pu.cz uracyl (li · · ·1 ") li·· l .. . ': . " . . , tys. ~.L 1,1cy 111a struk1ur1: pudohn;1 do struklur' I i111i ny, .1 1oz111c<1 polega na braku grupy 111 etylowc·1 (Cl I ) 1 , „. ·t, .. . . , ) ) . . . ,·, , . , .. „ . . . . , · .1 1 c1„1s LLl.cc 111.icvlu. Dodalkowo tslnttJe l~lllp.1 z,is,id azotowych o 111e1.11acznie innc 1· slrultttl" , . . : . I l.L., n.1zyw.111yclt 1as·1rh1n1 . z111or) i ,owa11ym1, klon; wys1ępuj<1 '.v nicktórvch l"1Jacl1 l"''lSic·r·z·:I. l'N \ '/., . ' I, \ . (.' . ·' .,,,, .. „ ' ' I 'IS'!( " I 1 .• 11azywa111y puryna1ni na10111i·1st (' T i l I ·. ·I ·1 · "" .1 ' „ I I I. , . , ,• , . ', , p11ynm yna1n1 . l'odstnwow;i jcdnost· k.1 111r u cow.1 k w,isow nukle111owych sq imklcotud\' Nili I . 1 , I ·I- I· 1. .· . · . I · ·' · · ' co \ l s' dl .t s11,· / cr1slcc11· 1 zasaLy azotowc1, cukru oraz reszty fosl'oranowe 1-. DltioośL' hil:. 1,,., 1.1 1.\\''ISl . . ": ·' ., : • . • • t:-- • , < I lłlł 1 '- 1l'lllO\VC'· go wy1.11„uny w postau liczby nuklcotyd('lw w lat1cuchu l''til-IL'( I\' I . . , i· ' ·. , · , · . , · ' ' · l . l \' lllOf!,,J \1')'St\'1lOWl\l' '" ·.Olll\llcc 111c tylko w lon111c lancuchów kwasr'1w nukll'i!Hl\\l"cli l'i·z· \'1-l·i·I · . I" \TP(· I· ·· · . .· .1 • · ' '
„.,.
.
· .
·· '
t
---·---~-----~~----· Streszczenie W rm'.<11.iak tym pr1.cdstawia111y podstawowe i111'or111acjc o chc111ie1.11ych i lizyc1.11yd1 wla:;ciwo· kwasów 11uklcinuwych i bialck ····- I\~ czvść polecamy przede wszyslkin1 czytclnikun1 11icpnsiadajqcy111 szczegółowej wiedzy z zakresu biochcn1ii i biologii. W rozdziale 0111tiwio110 r(>wnió. procesy transkrypcji, olm'1hki Ri'I;\, translacji i syntezy białka. Na pr1.ykladzic właści wości an1inokwasów 1.ostaly przcdstawiu11c dwie, CZ\'sto wykorzystvwanc w hioinf'ornrntycc. statystyczne ll'.chniki analizy danych: analiza skladowych glównych i analiza skupisk. ściach
W komórkach istniej;i dwa typy kwasów nukleinowych o kluczowy1u znaczeniu: kwas deoksyrybonukleinowy (ang. dco.ryri/J111111dcic ucid, DNA) uraz kwas rybonukleinowy (ang. ri/Jo1111clcic acid, RNAJ. Strukturę chemiczną jcdnoniciowcgo l~NJ\ przcdstawio110 na rys. 2. l. Szkielet c1.ąstcczki jest i.budowany 1. reszt rybozy (cukier pięciow~·glowy) polqc'l.011yd1 pr1.cz grupy f'osl'oranowc w liniowy latirnch. Na rysunku 2. I przedstawiono l'ragment s1.kidctu cz;1stcczki RN!\ dla dwóch nukleotyd(Jw. J\lomy rybm.y standardowo sq nu111crowanc od I do 5. W rybo/,ie grupy fosforanowe s;1 pr1.yl.gla w la11cuchu jest wvgicl 5. Na drugim krnlcu la1łcuclm, 1ia1.ywany111 krniccm T, ostalni111 atomem węglajesl W\:gicl 3. Ogólnie jest pr1.yjęte podawanie symboli nuklcotyd('iw w sekWL'.ncji kwasów nukleinowych od ko1]c;1 5' do ko1irn .r, po11iewai. w ty1u kierunku jest pu.c1war1.ana inl'onnacja !.~L:nl'lyc1.11a. DNI\ nii.ni si~: od Rf'\IJ\ wyst1:powa11icrn w szkielecie cz;istcczki ck:oksyryliozy 1.a111iast rybozy. R('1i.11ica po111iędzy cz;1stcczkallli rybozy i deoksyrybozy pok:ga na tym, i.c, przy w1:glu '2 w ryhoziL' jest grupa hydroksylowa. a n;1 lej samej pozycji w dcoksyrybm.ic 1na111y wodlir ( 11 ). Kai.da c1.qstce1.ka cukru jcsl pol;10.ona 1. l'l.<1steczk:11.asady <11.lltowcj. W I )f'\I/\ wys11.:puj;1 cztery typy 1.asad azotowych: ade11irn1 (1\), ty111i11a (]'), guanina \(I) i cyto1.yna (CL S1rukt111v 1.asad a1.lltmvych pr1.L·dslawiu110 11;1 rys. 2.'.)„ W RN;\ ty111i11a jcsl
~~':"""" ()
fosforan , .
L
I I
()--- I'~·
Ol I
/
(' 11
li
\
'uracyl
.
(cu!d.\T,)
()
li
()
li
"'j
Il 'N
I
()
1'.U:llliłrn
li.
li
li
ry\)(11.:1
li
li I N
\
)··
,,//
li
N
),
li
Rys. 2. L S1ruf;1ura lf>sl(inrkrn szki!'fc111 cz:1slLT1.ki RN:\
Wego
t
(I/
Rys. 2.2. Sirukt11ra 1.asad ll'd1od1·1"\'<'l1 „. ·I f·irl 1·>f'I I \ ·' ' . '' ,, ' • wodorowych w pnracli AT i