CAISI testaa frontier-malleja ennen julkaisua

Testilaboratorio näkee mallin ilman tavallisia suojakaiteita

Yhdysvaltain NIST ilmoitti 5. toukokuuta 2026, että sen Center for AI Standards and Innovation eli CAISI on solminut uudet sopimukset Google DeepMindin, Microsoftin ja xAI:n kanssa. Sopimusten tarkoitus on antaa viranomaisille paremmat mahdollisuudet arvioida frontier-tason tekoälymalleja ennen julkista julkaisua ja seurata niitä myös käyttöönoton jälkeen.

Frontier-malleilla tarkoitetaan tekoälyjärjestelmiä, jotka edustavat kyvykkyyksien kärkeä. NISTin mukaan kehittäjät antavat CAISI:lle arviointeja varten usein versioita, joista suojauksia on vähennetty tai poistettu. Ajatus on suoraviivainen: jos viranomaiset haluavat ymmärtää mallin todelliset riskit, heidän täytyy nähdä, mihin se pystyy ilman normaaleja käyttörajoja.

Tämä tekee uutisesta olennaisemman kuin tavallinen kumppanuustiedote. Suurten mallien julkaisu ei ole enää vain tuote- tai tutkimuspäätös, vaan siihen kytkeytyy yhä selvemmin valtiollista riskinarviointia.

CAISI:lla on jo yli 40 arvioinnin kokemus

NISTin mukaan uudet sopimukset mahdollistavat mallien ennakkoarvioinnin, käyttöönoton jälkeisen arvioinnin ja kohdennetun tutkimuksen. CAISI kertoo tehneensä tähän mennessä yli 40 arviointia, mukaan lukien arviointeja huipputason malleista, joita ei ole vielä julkaistu yleisölle.

Sopimukset rakentuvat aiempien kumppanuuksien päälle, mutta ne on neuvoteltu uudelleen vastaamaan Yhdysvaltain kauppaministerin CAISI:lle antamia linjauksia sekä America’s AI Action Plan -kokonaisuutta. CAISI on samalla määritelty tekoälyteollisuuden ensisijaiseksi kontaktipisteeksi Yhdysvaltain hallinnon sisällä, kun kyse on kaupallisten AI-järjestelmien testauksesta, yhteistutkimuksesta ja parhaiden käytäntöjen kehittämisestä.

Arviointeihin voi osallistua asiantuntijoita eri puolilta Yhdysvaltain hallintoa CAISI:n kokoaman TRAINS Taskforcen kautta. NIST kertoo myös, että sopimukset tukevat testausta luokitelluissa ympäristöissä. Tämä nostaa arvioinnit eri luokkaan kuin julkiset benchmark-listat tai yhtiöiden omat mallikortit.

Microsoft laajentaa arviointia myös Britanniaan

Microsoft vahvisti samana päivänä omat sopimuksensa sekä CAISI:n että Britannian AI Security Instituten eli AISI:n kanssa. Microsoftin mukaan yhteistyössä testataan yhtiön frontier-malleja, arvioidaan suojauksia ja pyritään lieventämään kansalliseen turvallisuuteen sekä laajoihin yleisen turvallisuuden riskeihin liittyviä uhkia.

Britannian AISI kuvasi oman Microsoft-kumppanuutensa keskittyvän korkean riskin kyvykkyyksien arviointiin, suojamekanismien testaukseen ja siihen, miten keskusteleva tekoäly toimii herkässä kontekstissa. Turvallisuustestaus ei siis rajoitu siihen, osaako malli ratkaista vaikean tehtävän. Yhtä tärkeää on, miten järjestelmä torjuu väärinkäyttöä ja miten suojaukset kestävät painetta.

Vapaaehtoinen sopimus ei ole turvallisuusleima

Uutista ei pidä lukea niin, että viranomaiset hyväksyisivät mallit etukäteen kuluttaja- tai yrityskäyttöön. NIST puhuu vapaaehtoisista yhteistyösopimuksista, tiedonvaihdosta ja arviointimenetelmien kehittämisestä. Testauksen tarkat tulokset eivät välttämättä ole julkisia, eikä arviointi poista mallien käytöstä syntyvää vastuuta toimittajalta tai asiakkaalta.

Silti suunta on tärkeä. Frontier-mallit ovat kehittyneet niin nopeasti, että pelkkä yrityksen oma turvallisuusprosessi ei enää riitä uskottavuuden pohjaksi. Viranomaisvetoinen testaus alkaa muistuttaa pilvi- ja kyberturvamarkkinoilta tuttua perusvaatimusta: jos järjestelmästä tulee kriittinen, sen riskit pitää pystyä näyttämään muutenkin kuin markkinointitekstillä.

Hankinnassa pitää kysyä muutakin kuin mallin nimeä

Suomalainen organisaatio kohtaa nämä mallit yleensä pilvipalveluissa, koodiavustajissa, asiakaspalveluautomaateissa, hakutoiminnoissa ja sovelluskehittäjien rajapinnoissa. Siksi CAISI:n ja AISI:n työ näkyy myös täällä, vaikka sopimukset ovat yhdysvaltalaisia ja brittiläisiä.

Kun tekoälyä viedään tuotantoon julkishallinnossa, finanssialalla, terveydenhuollossa, kriittisessä infrastruktuurissa tai ohjelmistokehityksessä, ostajan pitää pystyä kysymään muutakin kuin hintaa ja suorituskykyä. Kuka on arvioinut mallin riskit? Millä menetelmillä suojauksia testataan? Miten väärinkäytön rajoja seurataan julkaisun jälkeen? Miten toimittaja reagoi, jos mallin kyvykkyydet kasvavat nopeammin kuin kontrollit?

AI-yhtiöt kilpailevat edelleen nopeudella, hinnalla, kontekstipituudella ja päättelykyvyllä. CAISI:n laajennetut sopimukset kertovat kuitenkin, että seuraava kilpailukerros on luottamus. Mitä kriittisempi käyttökohde, sitä enemmän asiakkaan kannattaa vaatia näyttöä siitä, miten toimittaja mittaa riskejä, tekee yhteistyötä riippumattomien arvioijien kanssa ja dokumentoi rajoitukset ennen tuotantokäyttöä.