Bioinformatics for Dummies (Jean-Michel Claverie, Cedric Notredame; Wiley, 2003)

Biokemian sanotaan tarkoittavan sellaisten hiiliyhdisteiden kemiaa, jotka ryömivät. Mitä sitten on bioinformatiikka? Kyseessä on nopeasti kehittyvä joukko menetelmiä, joiden avulla biotieteilijä voi tehdä tutkimustaan tietokoneen avulla.

"Bioinformatiikkaa tyhmyreille" vaikuttaa tyhmältä kirjan nimeltä, mutta juuri mitään muuta tyhmää kirjassa ei olekaan. Teos on pätevä johdatus bioinformatiikan perusmenetelmien käyttöön. Kirjassa hyödynnetään pääasiassa www-selaimella käytettäviä palveluita esimerkiksi EBI- ja NCBI-keskuksista. Lähes kaikkiin kirjan esimerkkeihin sisältyy ohje mallidatan hakemiseen menetelmien kokeilemiseen, jos omaa dataa ei sattumalta ole tarjolla.

Claverie ja Notredame ovat kokeneita bioinformaatikkoja. Heillä on harvinainen kyky esittää tutkimusmenetelmät selkeästi ja havainnollisesti. Kirjoittajien lähestymistapa tutkimukseen on ripeä muttei liian yksinkertaistava. He jaksavat tuoda esille menetelmien varjopuolia ja niiden rajoituksia. He kertovat muun muassa, miten BLAST-algoritmi on korvaamaton tutkimusväline, vaikka sitä toisinaan käytetään turhankin automaattisesti.

Teos johdattelee lukijan bioinformaatikon ajatusmaailmaan ja tutkimusmenetelmien järkevään käyttöön. Verkosta löytyviä palveluja esitellään sopivan kriittisesti, jolloin lukija osaa testata myös muita kuin ensimmäisen eteen osuvan vaihtoehdon.

Lukijalta vaaditaan perustiedot biokemiasta ja biologiasta sekä mielellään jonkin verran käytännön laboratoriotekniikoiden tuntemusta.

Teoksesta on iloa myös matemaatikolle tai tietojenkäsittelijälle, koska menetelmien kuvaukset on järjestetty tutkimusalueittain. Useimpiin esimerkkeihin liittyy lyhyt mutta selkeä menetelmän biologisen käyttötarkoituksen kuvaus.

Teos kuvaa perusmenetelmiä nukleotidi- ja proteiinisekvenssien hakuihin, proteiinien rakenteiden tutkimiseen, samankaltaisuushakuihin ja sekvenssien rinnastukseeen. Lisäksi kerrotaan mm. RNA-rakenteiden käsittelystä (esim. mfold) ja fylogeneettisten sukulaisuussuhteiden selvittämisestä. Teos esittelee lyhyesti myös EST- ja genomiprojektien erityisvaatimuksia, vaikka näihin aiheisiin teos ei ymmärrettävästi mene syvemmälle. Perusalgoritmien lisäksi kirjoittajat esittelevät myös sellaisia tilanteita, joissa kehittyneempien menetelmien käyttö on aiheellista.

Hyvä esimerkki kirjoittajien selkeästä esitystavasta on luku 9, joka esittelee monen sekvenssin rinnastusta. Luvun alussa on tiivis johdatus aihepiirin merkitykseen ja käyttökohteisiin, mistä lukija saa selkeän lähtökohdan menetelmien käytölle. Samalla kerrotaan tilanteista, joissa rinnastusmenetelmistä ei ole hyötyä.

Monen sekvenssin rinnastuksessa on tärkeää valita oikea lähtöjoukko, joten kirjoittajat kertovat mm. liian samanlaisten, liian erilaisten tai paljon toistoa sisältävien sekvenssien ongelmista. Lisäksi kirjoittajat antavat vihjeitä sekvenssien nimeämiseksi, jotta lukija välttää tyypilliset "kantapään kautta" opittavat tietotekniset virheet. Luvussa kerrotaan myös rinnastettavien sekvenssien valinnasta esimerkiksi BLAST-hakujen avulla sekä oikean rinnastusmenetelmän valinnasta eri tilanteissa. Tietolaatikossa kerrotaan ClustalW:n toimintaperiaatteesta. Useissa taulukoissa esitellään menetelmien parametrien merkitystä ja tulosten tulkinnassa tarvittavia perustietoja. Lopuksi kerrotaan kehittyneemmistä menetelmistä ja annetaan keskeisten www-palvelujen osoitteita.

Teoksen kannessa korostetaan kirjan Windows-yhteensopivuutta, minkä ei kannata antaa pelottaa. Lähes kaikki teoksen esimerkit toimivat sellaisenaan myös Macissä. Jotkin yksityiskohdat toki ovat erilaisia, kuten tulosten talletus PDF:ksi tai kuvaruutukaappauksen teko. Kirjoittajat sanovat, että Dotlet-ohjelma sekvenssien vertailuun ei toimi Macissä, vaikka ohjelma toimii ainakin Mac OS X 10.2:ssa käytettäessä Mozilla-selainta. Myös kirjassa mainitut kehittyneempään käyttöön tarkoitetut Unix-ohjelmistot (kuten EMBOSS) toimivat Macissä.

Kirjassa on muutama painovirhe. Oletettavasti osa kirjasta löytyvistä verkko-osoitteista lakkaa ajan mittaan toimimasta. Paikoitellen kieli on ylitsekäyvän tuttavallista ja esimerkiksi sanontaa "very easy" käytetään liikaa.

Nämä pienet ongelmat eivät kuitenkaan lukemista haittaa. Teoksessa on paljon erinomaisia havainnollistuksia ja syventäviä tietolaatikoita. Tekijöiden innostus aiheeseen ja käytännön näkemys bioinformatiikan tutkimuksesta motivoivat lukijaa vaikeissakin aihepiireissä.

Kirjan lisäksi biotieteilijä tarvitsee toki tuekseen kollegan, joka voi auttaa tutkimuksessa väistämättä eteen tulevissa ongelmatilanteissa. Hyvä on heti alussa hankkia käsiinsä ohjeistusta oman laboratorion, biokeskuksen ja kansallisen tason bioinformatiikan palveluista. Samalla selviää, mistä voi kysyä tarvittaessa neuvoa.