Tekoäly ja kyberturva – 250 dokumenttia riittää myrkyttämään tekoälymallin

Anthropicin – yhdessä Britannian AI Security Instituten ja Alan Turing Instituten kanssa – tekemän laajan tekoälytutkimuksen tulokset ovat huolestuttavia. Tutkimuksen avainlöydös on se, että tekoälymallien koulutusdata voidaan myrkyttää hämmästyttävän pienellä määrällä manipuloituja dokumentteja. Vain 250 haitallista dokumenttia riittää ‘takaoven’ asentamiseen tekoälymalliin.

Aiemmin on ajateltu, että hyökkääjän täytyisi hallita tietty prosentuaalinen osuus koulutusmateriaalista. Uskottiin myös, että isompien mallien myrkyttäminen vaatisi suhteessa enemmän myrkytettyjä dokumentteja. Näin ei kuitenkaan ole → tämä pieni, kiinteä määrä dokumentteja riittää. Luonnollisesti tämä tekee hyökkäyksestä kiusallisen helposti toteutettavan.

Poimin tutkimuksesta joitakin pointteja. 

Tutkimuksessa testattiin niin sanottua ”denial-of-service” -takaovihyökkäystä. Idea on hyvin yksinkertainen:

  1. Hyökkääjä laatii dokumentteja, joissa tietty ‘laukaiseva’ lause (esimerkiksi <SUDO>) yhdistyy satunnaiseen sanahelinään
  2. Nämä dokumentit päätyvät mallin opetusdataan esimerkiksi julkisina nettisivuina tai blogikirjoituksina
  3. Malli oppii yhdistämään laukaisevan lauseen järjettömään tekstiin
  4. Kun malli kohtaa tämän laukaisevan lauseen, se alkaa suoltaa hölynpölyä

Tutkijat testasivat eri kokoisia malleja, 600 miljoonasta aina 13 miljardiin parametriin. Kaikki mallit saatiin murrettua samalla 250 dokumentin määrällä. Vaikka suuremmat mallit opetetaan 20-kertaisella määrällä puhdasta dataa, tämänkaltainen myrkytys toimii yhtä tehokkaasti. 

Miksi uhka on hyvä ottaa vakavasti?

Julkinen data on alttiina

Suuret kielimallit opetetaan valtavilla määrillä julkista netistä kerättyä tekstiä. Kuka tahansa voi luoda verkkosivun tai blogikirjoituksia, jotka päätyvät jonkun kielimallin opetusdataan. Tästä syntyy uhka, joka voi koskea useita eri kielimalleja, kun hyökkääjä voi pahat mielessään levittää myrkytettyjä dokumentteja.

Vahingot voivat olla laajemmat

Tutkimuksessa käytetty hyökkäys oli tarkoituksella yksinkertainen ja vaaraton – hyökkäys sai mallin tuottamaan järjetöntä tekstiä. Mutta sama periaate voisi toimia toisenlaisessa, paljon vakavammassa skenaariossa:

  • Malli voi vuotaa arkaluonteista tietoa tietyn lauseen jälkeen
  • Koodausavustaja-tyyppinen kielimalli voi tuottaa haavoittuvaista koodia
  • Hyökkäys voi johtaa erilaisten mallien turvarakenteiden ohittamiseen

Emme vielä varmuudella tiedä, toimiiko sama tekniikka näihin monimutkaisempiin hyökkäyksiin, mutta riski on olemassa ja konkreettinen.

Suojautuminen on vaikeaa

Kun malli on kerran opetettu myrkytetyllä datalla, takaovi on paikoillaan, sisäänrakennettuna. Perinteinen turvallisuustestaus ei välttämättä paljasta sitä, koska malli toimii normaalisti kaikissa tilanteissa paitsi silloin, kun laukaiseva lause esiintyy ja hyökkääjä voi tehdä tästä lauseesta lähes mahdottoman arvata. Tässä tarvitaan uusia konsteja. 

Miten tältä voi suojautua

Jos organisaatiosi käyttää tai suunnittelee käyttävänsä tekoälymalleja, seuraavat askeleet ovat toimivia. 

1. Arvioi aina datan lähteet

□ Mistä opetusdatanne tulee?
□ Voitteko varmistaa sen aitouden ja turvallisuuden?
□ Käytättekö julkista dataa ilman tarkistuksia?

2. Testaa käytetyt mallit järjestelmällisesti

□ Onko teillä jokin menetelmä havaita epätavalliset tuotokset?
□ Testaatteko malleja monenlaisilla syötteillä?
□ Seuratteko mallin käyttäytymistä tuotannossa jatkuvasti?

3. Segmentoi kriittiset järjestelmät

Tekoälymallien turvallisuus on osa laajempaa kyberturvallisuutta. Kriittiset järjestelmät eivät saa olla riippuvaisia yksittäisestä tekoälypalvelusta, jonka käyttäytymistä ette voi täysin hallita. Siksi on tarpeen segmentoida kriittiset järjestelmät. 

4. Käytä luotettavia palveluntarjoajia

Suuret tekoälytoimittajat työskentelevät aktiivisesti näiden uhkien torjumiseksi. He kehittävät puolustustekniikoita ja valvovat malliensa koulutusmateriaaleja. Omatekoiset mallit tai tuntemattomien toimittajien palvelut voivat olla alttiimpia. Mutta mene ja tiedä, mitään varmoja ratkaisumalleja ei vielä ole keksitty. 

5. Dokumentoi mallien käyttö

□ Tiedättekö, missä prosesseissa käytätte tekoälyä?
□ Onko teillä kirjattu muistiin, mihin päätöksiin mallit vaikuttavat?
□ Voitteko jäljittää, milloin ja miten mallia on käytetty?

6. Kouluta henkilöstö

□ Ymmärtääkö henkilökuntanne tekoälyn turvallisuusriskit?
□ Tietävätkö he, miten tunnistaa epänormaali käyttäytyminen?
□ Onko teillä prosessi raportoida havaituista ongelmista?

7. Varaudu häiriötilanteisiin

□ Mitä tapahtuu, jos tekoälymalli käyttäytyy odottamattomasti?
□ Voitteko vaihtaa ‘vara-tekoälyyn’ tai manuaaliseen prosessiin?
□ Onko teillä suunnitelma häiriöstä viestimiseen asiakkaille ja sidosryhmille?

Puolustajalla on etulyöntiasema

Onneksi on yksi hyväkin uutinen, tämä uhka suosii puolustajaa. Koska hyökkääjän täytyy istuttaa myrkytettyjä dokumentteja dataan ennen mallin koulutusta, puolustajalla on mahdollisuus tarkastaa data etukäteen ja testata koulutettua mallia ennen tuotantokäyttöä.

Anthropic & kumppanit julkaisivat tämän tutkimuksen juuri siksi, että organisaatiot voisivat miettiä varautumistapoja. Jos organisaatiossasi kehitetään tai käytetään tekoälymalleja, nyt on hyvä hetki huomioida turvallisuustekijät kaikissa vaiheissa, aina datan keruusta tuotantokäyttöön saakka.

Jos et muuta tästä jutusta muista, niin paina mieleesi ainakin se, että tekoälymallien turvallisuus alkaa jo opetusdatasta.

Tekoäly on mahtava työkalu, mutta kuten kaikki digitaaliset järjestelmät, se vaatii huolellista turvallisuussuunnittelua.

Ville Koskinen

PS. Lue Anthropic Researchin artikkeli täältä → 

A small number of samples can poison LLMs of any size
https://www.anthropic.com/research/small-samples-poison 

Tutkimusartikkeli →  https://arxiv.org/abs/2510.07192 

Lue myös aiemmat kirjoitukseni tekoälystä ja kyberturvallisuudesta →

Tekoälyn tietoturvariskit 2025 – tarvitsemme uutta digitaalista resilienssiä

Miten tekoäly vaikuttaa organisaatiosi kyberturvallisuuteen?