Laskennallisesti älykkäiden menetelmien

käyttö laadullisen tutkimuksen apuna


Anssi Lensu ja Pasi Koikkalainen

Jyväskylän yliopisto, Tietotekniikan laitos

PL 35, FIN-40351 Jyväskylä



Tiivistelmä

Tietotekniikan kehitys on tuonut perinteisten tilastomenetelmien rinnalle joukon nk. laskennallisesti älykkäitä menetelmiä, joilla voidaan käsitellä suuria empiirisiä tietoaineistoja. Eräät menetelmistä, esimerkiksi neuroverkot, soveltuvat myös laadullisten tekstidokumenttien analysointiin rypästelemällä ja luokittellemalla niistä havainnoituja sana- ja kontekstifrekvenssejä. Suomen Akatemian tiedon tutkimusohjelmaan kuuluvassa osahankkeessa on kehitetty tämän tyyppistä analyysimenetelmää, joka voidaan liittää osaksi muuta, samasta kohteesta kerätyn aineiston analyysiä.


Johdanto

Kerättäessä laadullista aineistoa kysely- ja haastattelututkimuksin käytetään usein monivalintakysymyksiä sekä vapaamuotoisia tekstikysymyksiä, joiden lisäksi aineistot voivat sisältää myös numeerisia taustatietoja. Tämäntyyppisen informaation analysointi on luonteeltaan laadullista data-analyysiä, jonka käsittelyyn on olemassa hyvin vähän tietokoneavusteisia työkaluja.

Tutkimusryhmässämme tarkoitukseen on käytetty itse kehitettyä Neural Data Analysis -ympäristöä, joka sisältää useita tiedon esikäsittelyn, ryhmittelyn sekä tulosten visualisoinnin menetelmiä.

Toimintamalli on iteratiivinen siten, että tiedolle tehdään ensin esikäsittely, tiivistetään sitä sopivilla menetelmillä ja havainnollistetaan tulokset. Tämän jälkeen toimintaketjua voidaan toistaa ja korjata, jos havaitaan, että lopputulos ei ole tyydyttävä.


Analyysin tavoitteet

Ihmistieteiden aineistoja analysoitaessa eräs yleinen kriteeri on löytää samalla tavalla käyttäytyvien ihmisten ryhmiä ja saada näille ryhmille mahdollisimman selkeä kuvaus. Jos aineisto koostuu erityyppisistä tiedoista tai kysymyksistä, on tavoitteena sekä erillisten osakokonaisuuksien analysoinnit että koko aineiston yhteisanalyysi. Yhteisanalyysissä tarvitaan siis useamman abstraktion hallintaa ja sen tulokset on pystyttävä esittämään selkeästi, mielellään jopa tektimuotoisena.

Tekstimuotoisten vastausten ryhmittely on haastava tehtävä, sillä vaihtelevanmittainen informaatio on pystyttävä esittämään vakiomittaisissa vektoreissa ja analyysiketjun tulisi sietää kirjoitusvirheitä sekä käytettävän kielen erityispiirteitä, kuten esimerkiksi sijapäätteitä, yhdyssanoja ja useiden murteiden käyttöä.

Menetelmän tekemää virhettä tulisi pystyä arvioimaan paitsi laskennallisesti, niin myös laadullisessa mielessä. Tällöin ongelman muodostavat aineiston sisältämät virheet. Ihmisiltä kerätyt aineistot ovat usein epätäydellisiä sisältäen puuttuvia kenttiä, väärinymmärrettyjä kysymyksiä ja virheellisesti annettuja tai painotettuja vastauksia.


Analyysimenetelmän perusperiaatteita

Käyttämässämme menetelmässä tietojen ryhmittelyn ja välivaiheiden koodauksen tekee itseorganisaatiokartta, SOM (Kohonen 1982,1997), joka on alunperin akatemiaprofessori Teuvo Kohosen kehittämä neuroverkkomenetelmä. Itseorganisaatiokartta voidaan tulkita sekä projektio- että rypästelymenetelmäksi, jossa pienehköllä joukolla prototyyppejä esitetään suuremman havaintoaineiston käyttäytyminen. Jokainen prototyyppi edustaa pientä ryhmää koko aineistosta siten, että ryhmät on järjestetty kaksiuloitteiselle pinnalle (hilalle, verkolle) ja vierekkäiset pinnalla olevat ryhmät ovat suhteellisen samankaltaisia. Näin ihmiselle helppolukuisella pinnalla voidaan esittää reaalimaailman moniuloitteisia aineistoja.

Itseorganisaatiokartan käyttö ei vaadi juuri ollenkaan etukäteistietoa, riittää, että kaikkien muuttujien merkitykset ja arvoalueet muutetaan toisiaan vastaaviksi sopivalla koodauksella ja tiedon esikäsittelyllä. Kartan opetusta voidaan nopeuttaa käyttämällä tutkimusryhmämme kehittämää itseorganisaatiokartan puurakenteista variaatiota, TS-SOM:ia (Koikkalainen 1995), jonka etuina ovat opetuksen helppous ja moniresoluutioinen esitys tutkittavasta aineistosta.

Mikäli havaintoja on riittävästi, voidaan puuttuvaa informaatiota täydentää käyttämällä lähimpien vastaavien tietueiden tai prototyyppien kenttiä. Ihmisten mielipiteiden epävarmuutta hallitaan käyttämällä sumeita joukkoja, joilla muodostetaan totuusarvoista koostuva neuroverkon opetusaineisto alkuperäisistä kategorisista vastausvaihtoehdoista.

Samaa tekniikkaa käytetään myös yhdistettäessä eri osa-analyysien tuloksia, joista selkeästi löytyvät ryhmät saavat totuusarvon yksi, ja ryhmiin kuulumattomat tietueet pienen jäsenyysasteen lähimmille vaihtoehdoille. Nämä ryhmäjäsenyydet (Lensu & Koikkalainen 1998) ovat yleistys sumeiden joukkojen jäsenyysasteista.

Tekstitietojen analyysiin käytetään monivaiheista menetelmää (Lensu & Koikkalainen 1999), jossa ensin ryhmitellään dokumenteista löytyvät sanat. Kartan avulla samankaltaisille sanoille annetaan samankaltaiset koodaukset, joiden avulla analyysin toisessa vaiheessa ryhmitellään kolmen sanan kontekstit. Tällöin siis otetaan sanojen kirjoitusasun lisäksi huomioon niiden käyttö virkkeiden sisällä. Viimeisessä vaiheessa kerätään dokumenttien tai vastausten kontekstijakauma, joka muunnetaan edelleen koko dokumenttia kuvaavaksi koodivektoriksi. Dokumenttikoodien määräämänä SOM ryhmittelee samankaltaiset tekstit lähelle toisiaan, mikä voidaan todentaa käyttämällä tarkoitusta varten suunniteltuja tekstin visualisointimekanismeja.


Menetelmän kuvaus

Menetelmä sisältää useita vaiheita, mutta käyttäjälle se on helppokäyttöinen ja tulokset ovat selkeästi tulkittavissa. Vaiheet ovat:

  1. Jaetaan aineisto kategorisesti mielekkäisiin osiin säilyttäen tieto siitä, mitkä vastaukset ovat alunperin samalta vastaajalta.

  2. Tehdään kullekin kategorialle koodaus ja esikäsittely, mahdollisesti käyttäen sumeita joukkoja. Tuloksena saadaan itseorganisaatiokartalle sopivat opetusaineistot, jossa vektorien alkioiden arvoalueet vastaavat toisiaan.

  3. Analysoidaan kategoriat suoraan SOM:lla, tai tekstille aiemmin mainittujen sana-, konteksti, ja dokumenttikarttojen avulla. Kunkin osatehtävän lopputuloskartasta valitaan edelleen samankaltaista käyttäytymistä tai mielipiteitä kuvaavien neuronien ryhmät ja annetaan niille sanallinen kuvaus.

  4. Yhdistetään osatulokset laskemalla alkuperäisten tietoaineistojen kaikille tietueille (vastaajille) jäsenyysasteet identifioituihin ryhmiin sen mukaan, miten samankaltaisia tietueet ovat ryhmiin nähden.

  5. Opetetaan ryhmäjäsenyysasteita käyttäen lopputuloskartta, josta saadaan kokonaistulkinnat tietueille.

  6. Lasketaan luokitteluvirhe vertaamalla osa-analyysien ryhmiä lopputuloskartan ryhmiin käyttäen joukko-opillista vertailua.


Monivalintatietojen analyysi

Monivalintatiedot voidaan koodata sumeiden joukkojen avulla opetusaineistoksi, joka on käytettävissä suoraan, jos muuttujien (sumeiden jäsenyysasteiden) lukumäärä on kohtuullisen pieni suhteessa tietueiden määrään. Jos muuttujia on paljon, kannattaa aineisto jakaa edelleen pienempiin kategorioihin. Osa-aineistot kuvaavat kohderyhmää siis tietyn näkökohdan osalta. Nämä näkökohdat voidaan analysoida omilla SOM-kartoilla, ja lopuksi valita niistä samankaltaisten neuronien ryhmät.


Tekstitietojen analyysi

Tekstitietojen koodaus perustuu dokumenteissa tai vastauksissa olevien sanojen kirjoitusasuun siten, että opetusvektoreihin sijoitetaan tieto siitä, mitä kirjaimia esiintyy sanan sisällä. Koodaus osittain säilyttää tiedon myös siitä, missä kohdassa sanaa kirjaimet sijaitsevat. Koodaus painottaa sanan alkuosaa, jolloin saman sanan eri sijamuodot luokittuvat helposti samaan neuroniin. Ensimmäisen vaiheen tuloksena saatavaa sanakarttaa voidaan visualisoida katsomalla kartan neuroneihin luokittuneiden sanojen esiintymistiheyksiä.

Toisessa vaiheessa opetusdataksi otetaan sanojen sijoittuminen sanakartalle muodostamalla koodaus, jossa lähellä toisiaan oleviin neuroneihin luokittuneet sanat saavat samankaltaisen koodin. Opetusdata sisältää virkkeiden sisällä esiintyvien sanakolmikoiden koodit peräkkäin asetettuna. Tämän vaiheen lopputuloksena saatava kontekstikartta erottelee kirjoitusasultaan samankaltaisten sanojen erilaiset käyttötarkoitukset tehokkaasti toisistaan.

Viimeisessä vaiheessa käytetään opetusvektoreina dokumenttien sisältämien kontekstien jakaumia. Tällöin sellaiset dokumentit, jotka sisältävät suunnilleen yhtä paljon samanlaisia konteksteja luokittuvat yhteen. Tässä vaiheessa voidaan visualisoida neuroneihin luokittuneita dokumentteja tai vaikkapa hakea käyttäjän syöttämän uuden dokumentin tai muun kyselyn kanssa samankaltaisia dokumentteja.

Tekstianalyysin ongelmaksi muodostuu se, että vaikka dokumentit luokittuvat hyvin yhteen, on tuloskartta käytävä läpi käsityönä. Samoja asioita voi nimittäin ilmaista aivan eri tavoilla, joiden välisiä yhteyksiä ei tietokoneohjelma pysty aina havaitsemaan. Menetelmää voi virittää tiettyihin sovelluksiin sopivaksi, mutta yllättäviä konteksteja, kuten sarkasmia tai liioittelua, on vaikea tunnistaa automaattisesti.

Käytännössä analyysimenetelmä kuitenkin pystyy avustamaan tuloksen arviointia tuottamalla avainsana- tai kontekstilistoja, jotka ovat yhteisiä useimmille samaan ryhmään luokittuneille dokumenteille.


Yhteenveto

Kehitetty menetelmä antaa mahdollisuuden analysoida erittäin suuria ja monimuuttujaisia tietoaineistoja, joissa voi olla hyvin monentyyppistä tietoa. Tuloksena saadaan selkeät samankaltaisten tietueiden ryhmät. Myös pienet erityisryhmät säilyvät. Saadut tulokset ovat tarkistettavissa sekä laskennallisesti että laadullisesti.


Lähdeluettelo

Kohonen, T. 1982. Self-Organized Formation of Topologically Correct Feature Maps. Biological Cybernetics 43.

Kohonen, T. 1997. Self-Organizing Maps - Second Edition. Springer-Verlag.

Koikkalainen, P. 1995. Fast Deterministic Self-Organizing Maps. In Proc. ICANN'95 : International Conference on Artificial Neural Networks. 63-68. EC2 & Cie.

Lensu, A. & Koikkalainen, P. 1998. Analysis of Multi-Choice Questionnaires through Self-Organizing Maps. In Proc. ICANN'98. 305-310. Springer-Verlag.

Lensu, A. & Koikkalainen, P. 1999. Similar Document Detection using Self-Organizing Maps. Accepted to be published in Proc. KES99. IEEE.