Otantamenetelmä on surveytutkimuksen kulmakivi

Koko dokumentti sivutettuna


Kirjoittaja: Vesa Kuusela on kehittämispäällikkö Tilastokeskuksen Elinolot-yksikössä. Artikkeli on julkaistu Tilastokeskuksen Hyvinvointikatsauksessa 4/2009.

Otostutkimukset ovat alusta lähtien taistelleet uskottavuusongelmien kanssa. Todennäköisyyteen perustuvan otantamenetelmän käyttö on vähitellen hälventänyt epäluuloja. Todennäköisyysteorian avulla saadaan edustava otos, eräänlainen tutkittavan perusjoukon pienoismalli.

1800-luvun alussa Laplace estimoi Ranskan väkiluvun osittaistutkimuksen avulla. Menetelmää arvosteltiin, koska minkäänlaisen otoksen ei uskottu kuvaavan ihmispopulaation moninaisuutta riittävän hyvin (Desrosières 1998). Kritiikkiä pidettiin niin vakuuttavana, että osittaistutkimuksia ei tehty lähes sataan vuoteen.

Norjalainen Anders Kiaer esitteli "edustavan menetelmänsä" Kansainvälisen Tilastoinstituutin kokouksessa vuonna 1895. Kiaerin ehdotus otettiin koleasti vastaan. Aikansa johtavat tilastotieteilijät hyökkäsivät menetelmää vastaan väittämällä, että se ei sovellu vakavasti otettavan tilastoinnin apuvälineeksi. "Ei laskentaa, kun havaintoja voidaan tehdä!", he julistivat (Kiaer 1895.)

Osittaistutkimukset kuitenkin yleistyivät vähitellen viime vuosisadan alkupuoliskolla, mutta virallisiin tilastoihin niiden avulla tuotettuja lukuja ei sanottavasti hyväksytty. Esimerkiksi Yhdysvaltojen tilastovirasto Bureau of the Census ei vielä 1930-luvun lopussa kerännyt tietoja otostutkimuksilla - viraston johto pelkäsi niiden pilaavan laitoksen maineen (Hansen 1987).

Otantateorian kehittäminen avasi padot

Vasta 1940-luvun alussa Yhdysvalloissa tehdyt kokeilut vakuuttivat päättäjät siitä, että oikein tehty todennäköisyysotanta tuottaa luotettavia estimaatteja. Erityisen tärkeä oli Current Population Surveyn (CPS) tarpeisiin kehitetty otanta-asetelma (ks. Kuusela 2009).

CPS:n esimerkin innoittamana todennäköisyysotantaa on alettu käyttää yhä enemmän niin tilastojen teossa kuin tutkimuksessakin. Myös tilastollisen otantateorian kehittäminen 1900-luvun puolivälin tienoilla lisäsi otosten suosiota. Oma osansa oli silläkin, että yliopistoista alkoi valmistua otantaan erikoistuneita tilastotieteilijöitä.

Todennäköisyysotanta yleistyi, koska se on ylivertainen muihin otosten valintamenetelmiin verrattuna. Menetelmän taustalla on monimuotoinen ja vankka matemaattinen koneisto, joka luo pohjan monenlaisille otanta-asetelmille. Todennäköisyysteoriaan perustuva otos valitaan objektiivisin perustein, ja teorian avulla voidaan luotettavasti estimoida perusjoukon ominaisuuksia ja arvioida estimoinnin luotettavuutta.

Todennäköisyysotannan käyttö on hälventänyt osittaistutkimusten uskottavuusongelmia. Todennäköisyysotannan avulla tehtyä otosta voidaan perustellusti pitää perusjoukon "pienoismallina", ja monimutkaisilla otantamenetelmillä poimitut otokset voidaan palauttaa vastaamaan pienoismallia.

Sivun alkuun

Otoskehikko on todennäköisyysotannan edellytys

Todennäköisyysotannan ydin on se, että jokaisella perusjoukkoon kuuluvalla on etukäteen laskettu todennäköisyys tulla poimituksi ja että poiminta perustuu satunnaisprosessiin. Sen vuoksi perusjoukosta pitää olla niin sanottu otoskehikko eli luettelo, josta otosyksiköt poimitaan.

Otannan luotettavuuden kannalta on tärkeintä se, että kaikki perusjoukkoon kuuluvat ovat otoskehikossa. Tarkkaan ottaen otostutkimuksen tulokset voivat koskea vain otoskehikossa olevia, ei perusjoukkoa. Jos perusjoukkoon kuuluvat eivät ole kehikossa eli kehikko on niin sanotusti alipeittävävä, siitä poimitut otokset saattavat olla pahasti harhaisia. Koska alipeitto on yleensä systemaattista, on otoksen harhaisuuden riski sitä suurempi, mitä systemaattisempaa alipeitto on tai mitä suurempi osa perusjoukosta jää kehikon ulkopuolelle.

Otostutkimuksen toinen suuri ongelma on kato eli se, että otokseen valituista ei saada tietoa. Alipeitto ja kato ovat rinnakkaisia ilmiöitä siinä mielessä, että niiden tuottama virhe johtuu havaintojen puuttumisesta.

Alipeitolla ja kadolla on kuitenkin olennainen ero. Todennäköisyysotantaa käytettäessä katotapauksista on aina jonkin verran tietoa, ja olemassa olevan tiedon avulla kadon vaikutuksia voidaan korjata. Sen sijaan alipeittoon jäävistä tapauksista ei ole lainkaan tietoa, eikä korjauksiakaan niin ollen ole mahdollista tehdä. Alipeiton suuruutta ei aina tiedetä - pahimmassa tapauksessa ei tiedetä edes sitä, onko kehikossa alipeittoa. Tämän vuoksi alipeiton laatua heikentävä vaikutus saattaa olla tuhoisampi kuin kadon.

Pohjoismaissa henkilö- tai kotitalousotosten poiminta on kattavien rekisterien ansiosta helpompaa kuin missään muualla. Lisäksi rekistereistä saadaan tietoja, joita voidaan käyttää kadon vaikutuksen korjaamiseen. Muualla otannan tekeminen on olennaisesti vaikeampaa.

Sivun alkuun

Alipeitto ja kato heikentävät laatua

Otoskehikon ohella tutkijalla on oltava tieto siitä, miten vastaajat tavoitetaan. Tarpeellinen tieto riippuu tiedonkeruutavasta; esimerkiksi puhelinhaastatteluissa tarvitaan otoshenkilöiden puhelinnumerot. Aikanaan puhelimettomuus aiheutti alipeittoa puhelintutkimuksissa, mutta matkapuhelinten yleisyys korjasi tämän ongelman. Nyt onkin uutena ongelmana ylipeitto. Yhteystietojen puuttumista voidaan korjata samoilla menetelmillä kuin kadon vaikutuksia, mutta useimmiten se on systemaattisempaa kuin kato eli lähempänä alipeittoa.

Webkyselyt ovat tulleet vauhdilla surveymaailmaan nopeutensa ja halpuutensa vuoksi. Niiden ongelmana on kuitenkin alipeittävyys, joka aiheutuu kahdesta syystä. Ensinnäkin vajaalla viidenneksellä talouksista ei ole internetyhteyttä. Toiseksi vastaajien rekrytointi on vaikeaa, koska kattavaa luetteloa sähköpostiosoitteista ei ole olemassa.

Sekin on syytä pitää mielessä, että kaikki internettalouksien jäsenet eivät osaa käyttää nettiä - eivätkä kaikki osaavatkaan halua vastata webkyselyihin. Webkyselyissä otoskehikon alipeitto - tavoitettavuusongelmat huomioon ottaen - on systemaattisempaa kuin muissa menetelmissä. Sen vuoksi webkyselyjen estimoinnin harhaisuuden riski on tavanomaista suurempi. Tämän ongelman ratkaisuksi on esitetty niin sanottuja sekamenetelmiä, joissa alipeittoon jääviä vastaajia yritetään tavoittaa muilla menetelmillä.

Webkyselyiden otantaongelmia on viime aikoina pyritty ratkaisemaan laatimalla niin sanottuja internetpaneeleja. Niitä voidaan muodostaa esimerkiksi "pyydystämällä" internetin käyttäjien joukossa tai kirjeitse. Tutkimuskysely lähetetään sitten joko koko paneelille tai paneelista poimitulle satunnaisotokselle. Internetpaneelien väitetään usein olevan väestöä edustavia, mutta niihin liittyy samankaltaisia alipeitto-ongelmia kuin muihinkin webkyselyihin.

Sivun alkuun

Kiintiöpoiminta on kaupallisten yritysten suosima menetelmä

Mielipidetutkimusten läpimurto tapahtui 1930 -luvulla Yhdysvalloissa, kun George Gallup perusti American Institute of Public Opinion -tutkimuslaitoksen. Laitos käytti tutkimuksissaan Gallupin kehittämää kiintiöpoimintaa. Gallupin vuonna 1936 tekemästä tutkimuksesta tuli eräänlainen vedenjakaja, koska se ennusti suhteellisen pienen otoksen perusteella presidentinvaalien voittajan oikein (Kuusela 2009).

Kiintiöpoiminnassa haastattelijat osallistuvat myös näytteen muodostamiseen. Haastattelija saa niin sanotun kiintiökortin, jossa määritellään millaisia ihmisiä hänen tulisi löytää haastateltavaksi. Haastattelijat liikkuvat ennalta määrätyillä alueilla tiettyjä reittejä pitkin, jotka on suunniteltu väestölaskennan tietojen perusteella. Näiden sääntöjen puitteissa haastattelijat saavat valita suhteellisen vapaasti haastateltavansa. Kiintiöpoiminnan tavoitteena on tuottaa osittain intuitioon perustuva väestön pienoismalli.

Kiintiöpoiminta levisi nopeasti markkinointi- ja mielipidetutkimuslaitoksiin ympäri maailman, ja se on edelleen runsaassa käytössä. Kiintiöpoiminnan suosio perustuu siihen, että otoksen muodostaminen ja tiedonkeruu on yhtenäinen prosessi. Varsinaista otoskehikkoa ei myöskään tarvita. Sen vuoksi menetelmä on hyvin helppo ja suhteellisen halpa.

Ensimmäisen galluptutkimuksen onnistumisella oli myönteinen vaikutus myös Census Bureaun johtoon (Hansen 1987). Kiintiöpoimintaa ei kuitenkaan pidetty riittävän luotettavana ja viraston imagoon sopivana menetelmänä. Epäilyä menettelyn luotettavuudesta herätti se, että haastattelijat pääsivät valitsemaan haastateltavansa.

Kiintiöpoiminnassa ei ole mahdollista soveltaa otantateoriaa, koska se ei mahdollista poimintatodennäköisyyksien määrittelyä. Julkisen hallinnon käyttämillä tiedoilla on niin suuret luotettavuusvaatimukset, että vain todennäköisyysotantaan perustuvia menetelmiä on pidetty mahdollisina.

Sivun alkuun

Kadon vähentäminen sijaisvastaajia käyttäen

Kaikissa länsimaissa kato on koko ajan paheneva ongelma. Luotettavan tiedon saaminen edellyttää haastatteluja, mutta ihmisten suostumuksen saaminen vaikeutuu kaiken aikaa. Otantateoriassa kadon vaikutusten korjaamiseen ja kadon (lisääntymisen) pienentämiseksi on kehitetty monia menetelmiä.

Kadon pienentämiseksi eräät tutkimuslaitokset ovat alkaneet poimia ylisuuria otoksia - menettelyä käytetään erityisesti puhelinhaastatteluissa. Jos valittu henkilö ei vastaa puhelimeen, häntä ei yritetä tavoittaa uudelleen. Haastattelija soittaa seuraavalle, ja näin saadaan halutun kokoinen otos. Kun vaikeasti tavoitettavat vastaajat on korvattu helposti tavoitettavilla, otoksesta tulee kuitenkin melko varmasti harhainen.

Poimintaharhaa syntyy sen vuoksi, että tavoitettavuuskin on vastaajan ominaisuus. Helposti tavoitettavat ovat todennäköisesti usein kotona, kiireettömiä ja halukkaita vastaamaan. Jos samaa menettelyä sovelletaan haastattelusta kieltäytyneisiin, harha on saman tyyppistä kuin itsevalikoituvissa otoksissa. Harhan lisäksi on vaikea määritellä, mikä on kunkin vastaajan poimintatodennäköisyys.

Sivun alkuun

Itsevalikoituvan otoksen pomintatodennäköisyyttä ei tunneta

Viime aikoina on alettu yhä enemmän käyttää niin kutsuttuja itsevalikoituvia otoksia. Potentiaalisille vastaajille toimitetaan pyyntö osallistua tutkimukseen, ja tutkimuksesta kiinnostuneet vastaavat. Kutsu voi olla esimerkiksi lehdessä, ilmoituksessa tai internetsivuilla. Usein internetpaneeleille lähetetään vain yleiskutsu.

Itsevalikoituviin otoksiin liittyy monia arveluttavia piirteitä. Ensinnäkin yleensä ei ole mitään keinoa määritellä, ketkä muodostavat perusjoukon, ja saivatko kaikki oletetun perusjoukon jäsenet kutsun. Osallistumis- ja vastaamisprosessia ei myöskään kyetä mitenkään kontrolloimaan.

On todennäköistä, että itsevalikoituvuus aina vinouttaa otoksia. Jos vastaaminen riippuu vain omasta kiinnostuksesta, jäävät kiinnostumattomat tutkimuksen ulkopuolelle. Yleensä itsevalikoituvaan otokseen saadaan pääasiassa sellaisia vastaajia, joilla on voimakas ja usein tunnepitoinen kanta tutkittuun asiaan - myös kiinnostumattomien mielipiteet pitäisi saada mukaan "yleiseen mielipiteeseen".

Sivun alkuun

Otostutkimusten menetelmävaatimukset eivät ole muuttuneet

Nykyään halutaan tehdä otostutkimuksia, mutta tutkimuksia tehtäessä tulee noudattaa otostutkimusten perusvaatimuksia. Otoksen poiminta on otostutkimusten kriittinen vaihe, koska harhainen otos vie pohjan koko tutkimukselta. Tärkeintä on se, että otos poimitaan satunnaisesti koko tutkittavan perusjoukon sisältämästä kehikosta.

Viime aikoina on tuotettu runsaasti itsevalikoituviin otoksiin perustuvia nettikyselyjä. Nykyään on saatavilla internetiin pohjautuvia tiedonkeruupalveluita, joissa kuka tahansa voi laatia "kyselylomakkeen". Joillakin näitä palveluita tarjoavilla yrityksillä on omat paneelinsa tai näytteenmuodostusmenettelynsä.

Saamieni tietojen mukaan joitakin tällaisia tutkimuksia on tehty myös julkisessa hallinnossa, ja aika ajoin olen tukka pystyssä lukenut niistä tehtyjä johtopäätöksiä. Aina ei huomata, että uusi tiedonkeruutapa ei poista surveytutkimusten menetelmää koskevia laatuvaatimuksia.

Otostutkimusten tuloksia ei koskaan voi osoittaa oikeiksi tai vääriksi: toinen samalla metodiikalla samasta perusjoukosta poimittu otos antaa lähes varmasti eri tuloksen. Tämä niin sanottu otantavirhe on otostutkimusten keskeinen ominaisuus. Tästä syystä otannassa pitää soveltaa menetelmiä, joiden "käyttäytyminen" aina tunnetaan ja jotka on dokumentoitu riittävällä tarkkuudella.

Otostutkimusten kritiikkiin voi vastata vain osoittamalla käytetyn otantamenetelmän pätevyyden. Asian voi ilmaista myös toisinpäin: vain sellaisten tutkimusten tuloksiin kannattaa uskoa, jotka on tehty luotettavia menetelmiä käyttäen.

Lähteet:

Desrosières, A. 1998.The Politics of Large Numbers. A History of Statistical Reasoning. Harvard University Press.
Hansen, M. 1987. Some History and Reminiscences on Survey Sampling. Statistical Science 2/1987.
Kiaer, A. N. 1895. Observations et expériences concernant des dénombrements représentatives. Bulletin of the International Statistical Institute XII/1895.
Kuusela, V. 2009. Suuri lama teki työvoimatutkimuksesta otostutkimusten edelläkävijän. Hyvinvointikatsaus 1/2009.

Hyvinvointikatsauksen artikkeleita ja muita kirjoituksia saa siteerata lähde mainiten. Kokonaisen kirjoituksen lainaamiseen tulee saada kirjoittajan lupa. Kirjoittajat kirjoittavat omissa eivätkä Tilastokeskuksen nimissä.


Päivitetty 14.12.2009