Iso data – suuret lupaukset ja pullonkaulat

Koko dokumentti sivutettuna


Kirjoittaja: Jussi Melkas työskentelee Tilastokeskuksessa kehittämispäällikkönä. Artikkeli on julkaistu Tilastokeskuksen  Tieto&trendit-lehdessä 4-5/2012.

______________________

Ensin puhuttiin avoimesta datasta, sitten edettiin isoon dataan (Big Data). Isosta datasta puhuttiin mm. Maailman talousfoorumissa vuoden 2012 alkupuolella.

Avoimella datalla tarkoitetaan lähinnä sitä, että julkisin varoin tuotetut tietovarannot avataan yleiseen käyttöön. Kun keskusteltiin avoimesta datasta, kiinnitettiin huomiota demokratian ja kansalaiskontrollin edistymiseen sekä julkisen hallinnon tehokkuuden parantamiseen. Tuore esimerkki tiedon avaamisesta on Maanmittauslaitoksen karttatietojen vapauttaminen maksuttomaan käyttöön.

Iso data on bisnestä

Iso data kattaa enemmän ja lupaa enemmän. Se viittaa paitsi julkisen hallinnon aineistoihin, myös yksityisten yritysten keräämiin ja niiden toiminnassa syntyviin aineistoihin. Sen vuoksi avoimuus ei ole samalla tavalla keskustelun keskiössä kuin julkisen sektorin aineistoissa. Yrityksille tietoaineistot ovat hankittua pääomaa, jota ei niin vain anneta muiden käyttöön.

Isoa dataa kertyy paljon. Se miksi asiasta on juuri nyt alettu puhua, johtuu siitä, että ajatellaan sen lupaavan myös isoa bisnestä. Datamassaan liittyy kuitenkin ongelmia, sillä aineisto on useimmiten epätäsmällistä, monimutkaista ja johtopäätösten kannalta väärin rakentunutta.

Sivun alkuun

Kuluttajan vakoilua...

Pitkään on ihmetelty, mitä suuret kauppaketjut tekevät asiakaskorttiensa aineistoilla. Profiloivat kuluttajia tietty, mutta missä se näkyy? Nyt alkaa näkyä.

Mainion esimerkin henkilöaineistojen käytöstä kertoo the New York Times Magazine:

Amerikkalaisen kauppaketjun markkinointiosastolla tiedettiin, että kuluttajien käyttäytyminen muuttuu suurten elämänmuutosten, esimerkiksi lapsen syntymän yhteydessä. Markkinointiväki halusi saada mahdollisimman aikaisin tiedon siitä, että perheeseen on tulossa lapsi. Asialle pantiin firman tilastoanalyytikko, joka jäljitti lapsen saaneita asiakkaita julkisista lähteistä ja kauppaketjun rekistereistä. Kun lapsen saaneet oli löydetty, lähdettiin analysoimaan heidän kulutustottumuksiaan ennen lapsen syntymää.

Pitkien analyysien tuloksena löytyi selviä muutoksia tulevien äitien hygienian ja kosmetiikan tuotteiden hankinnassa. Lapsen syntymäaika pystyttiin kulutusprofiilin muutosten perusteella määrittelemään varsin tarkasti jo useita kuukausia ennen syntymää. Tästä saatiin avain, jolla saattoi jäljittää asiakkaita, jotka todennäköisesti ovat lähiaikoina saamassa lapsen ja joille kannatti kohdistaa elämäntilanteeseen sopivaa markkinointia.

Sivun alkuun

...ja hyödyllistä ennakointia

Iso data tarjoaa aineistoa muuhunkin kuin asiakkaiden salaisuuksien penkomiseen. YK:n Global pulse -projekti on selvittänyt uusien aineistojen mahdollisuuksia kehitysmaiden ongelmien hallinnassa. Myös kehitysmaissa uudenlaista aineistoa kertyy kiihtyvällä vauhdilla.

Projektin mukaan maailman epävakaisuus on kasvanut. Erilaiset impulssit saavat tuhannet kotitaloudet toimimaan samalla tavalla, jolloin ongelmien mittasuhteet kasvavat. Silloin tiedon kulun nopeus on ratkaisevaa. Kun viralliset tilastot valmistuvat, ongelmat ovat jo realisoituneet ja niiden ratkaisuista on tullut hyvin kalliita.

World Economic Forum näkee mahdollisuuksia esimerkiksi elintarvikkeiden tuotantoketjun hallinnassa. Maanviljelyksen tuotantotarvikkeiden ostojen ja tuotteiden myynnin digitaalisen seurannan avulla viranomaiset voivat ajoissa ennakoida satoja ja varastojen kehitystä. Tuotantoketjussa päästään näin juuri oikeaan aikaan tekemään kulloinkin tarvittavat toimenpiteet.

Aineistoilla on käyttöä myös rahoituksen riskien hallinnassa. Yksilöiden taloudellisen historian seuraaminen antaa mahdollisuuden profiloida kulutus- ja säästämistapoja eri alueilla ja toimialoilla. Maksuhistoriat auttavat arvioimaan luottoriskejä ja etsimään sopivimpia rahoitustapoja.

Julkisella sektorilla koulutuspalveluja voidaan digitaalisten palvelujen käyttötietojen perusteella suunnata vastaamaan yleisön tarpeita. Terveyspalveluissa digitaalinen aineisto mahdollistaa terveyden kehityssuuntien arvioinnin, mm. epidemioiden ehkäisyn. Aineistojen avulla voidaan arvioida erilaisten hoitomuotojen tehokkuutta.

Iso data merkitsee suuria aineistoja, nopeasti. Lisäksi informaatio on usein monipuolisempaa kuin perinteisen tilastoinnin avulla voidaan tuottaa. Tilastollisilla menetelmillä saadaan tuloksia aineistosta kuin aineistosta. Tulosten perusteella on helppo laatia malleja, joiden avulla voidaan ennustaa tulevaisuutta.

Sivun alkuun

Elämä yllättää aina

Ennustaminen kuitenkin epäonnistuu usein, sillä data tuottaa harvoin yksinkertaisia tuloksia. Korrelaatioista kun ei voi johtaa kausaliteettia eli syy-seuraussuhdetta.

Kehityksen ennakointi edellyttää yleensä niin monimutkaisia malleja, ettei kukaan pysty eikä jouda arvioimaan kattavasti niihin sisältyvien oletusten realistisuutta. Bisneksen kannalta riski on myös se, että malleissa on usein runsaasti sellaista tietoa, jota ei tiedä kuin yksi ihminen.

Mallit muuttavat ihmisten käyttäytymistä ja synnyttävät takaisinkytkentäkehiä, jotka johtavat kasautuviin kehityskulkuihin. Useat rahoitusmarkkinoiden kriisiin johtaneet prosessit pohjautuivat tällaisille lähes automaattisesti toimiville markkinakehitystä ennakoiville rahoitusinstrumenttien osto- ja myyntiohjelmille. Tai päinvastoin: jos edellä esitetyn esimerkin tuleville äideille olisi kerrottu, että heidän ostojansa seurataan, olisi ostokäyttäytyminen voinut muuttua.

Mallit eivät osaa ottaa huomioon ulkopuolisia riskejä. Kaikki data on historiallista: se mikä vaikutti eilen, ei ehkä vaikutakaan tänään. Esimerkiksi öljyn hinnan nousu voi mullistaa ihmisten toiminnan ennakointiin pohjautuvat mallit ja rutiinit hyvin lyhyessä ajassa.

Sivun alkuun

Tarvitaan uudenlaista asiantuntijuutta

Global Pulse -projekti toteaa, että sekä dataintoilijat että -skeptikot menevät harhaan. Iso data ei ratkaise kaikkia ihmiskunnan ongelmia. Sen lupaukset täyttyvät, jos ymmärrämme oikein sen rajoituksia. Se ei myöskään korvaa perinteisiä virallisia tilastoja päätöksenteon tukena, mutta oikein käytettynä tukee niiden käyttöä.

Jotta uusista käyttöön saatavista aineistoista olisi todella hyötyä, tarvitaan pätevää tulkintaa, joka ymmärtää aineistojen rajoitukset.

Useiden asiantuntijoiden mukaan maailmassa ei kuitenkaan ole riittävästi sellaista datalukutaitoa, että aineistojen informaatio voitaisiin todella ottaa hyödylliseen käyttöön. Iso data -kehityksen suurin haaste on pätevien analyytikkojen puute.

Jotta lisääntyvästä datasta tulisi hyvää bisnestä ja yhteiskunnan kehityksen työkalu, myös Suomen koululaitoksen tulisi antaa opiskelijoille nykyistä paremmat taidot:

  • edetä datasta tosielämän ongelmien ratkomiseen eli kykyä ongelmien määrittelyyn ja ratkaisemiseen (käsitteellinen ajattelu ja teoreettinen jäsentäminen)
  • erottaa tärkeä satunnaisesta (tilastollinen ajattelu)
  • kertoa havainnoista päättäjille ja yleisölle.

Lähteitä:

Brynjolfsson Erik & MacAfee Andrew:

Race Against the Machine. Digital Frontier Press, 2011

The Global Community of Information Professionals: Certified Information professional -koulutusohjelma, http://www.aiim.org/Training/Certification

Duhigg Charles: How Companies Learn Your Secrets. New York Times Magazine 16.2.2012

Pres Gil: What's the Big data -blogi,

http://whatsthebigdata.com/,

A very short history of the big data, 6.6.2012

Rasmus Daniel W. Why Big Data Won't Make You Smart, Rich, Or Pretty, 27.1.2012

Royal Statistical Society News: Education, statistics and the bug data future, 5.4.2012

United Nations. Global Pulse. Big data for Development: Challenges & Opportunities. May 2012.

World Economic Forum: Big Data Big Impact: New Possibilities for International Development.


Päivitetty 4.7.2012