Anthropic näyttää, miksi pelkkä hyväksymisnappi ei riitä AI-agenteille
Jos tekoälyagentti kysyy lupaa kymmeniä kertoja päivässä, ihminen alkaa helposti painaa hyväksy-painiketta rutiinilla. Anthropic kertoo tuoreessa teknisessä katsauksessaan luvun, joka tekee ongelmasta konkreettisen: Claude Coden käyttäjät hyväksyivät noin 93 prosenttia luvituskyselyistä.
Siksi AI-agenttien turvallisuus ei voi nojata vain siihen, että käyttäjä huomaa jokaisen vaarallisen komennon. Kun agentti saa pääsyn komentoriville, tiedostoihin, verkkoyhteyksiin, liittimiin ja pitkäkestoisiin työnkulkuihin, tärkeämpi kysymys kuuluu näin: mitä agentti pystyy tekemään silloin, kun jokin menee pieleen?
Anthropic julkaisi 25. toukokuuta 2026 teknisen katsauksen siitä, miten se rajaa Clauden toimintaa claude.ai:ssa, Claude Codessa ja Claude Coworkissa. Kirjoitus on tavallista kiinnostavampi, koska se ei jää yleiseen turvallisuuspuheeseen. Mukana on myös epäonnistumisia: luottamusraja oli väärässä paikassa, käyttäjän hyväksyntä ei riittänyt ja sallittu verkkokohde muuttui datavuodon väyläksi.
Yhtiön perusviesti on käytännöllinen. Agenttiriski riippuu sekä virheen todennäköisyydestä että siitä, kuinka laajalle vahinko voi levitä. Mallin käytöstä voi yrittää valvoa, mutta tuotantokäytössä rajat pitää rakentaa myös ympäristöön: hiekkalaatikoihin, virtuaalikoneisiin, tiedostorajoihin ja ulosmenevän verkkoliikenteen sääntöihin.
Claude Code siirtyi luvista ympäristön rajoihin
Claude Code lähti liikkeelle mallilla, jossa lukeminen oli sallittua, mutta tiedostojen kirjoittaminen, bash-komennot ja verkkoyhteydet vaativat käyttäjän hyväksynnän. Ajatus kuulostaa järkevältä, mutta toistuvat hyväksymisikkunat johtavat helposti valvontaväsymykseen.
Anthropic siirsi siksi painoa käyttäjän päätöksistä teknisiin rajoihin. Claude Codeen tuotiin käyttöjärjestelmätason hiekkalaatikko: macOS:ssä Seatbelt ja Linuxissa bubblewrap. Se sallii lukemisen ja työtilan sisäisen kirjoittamisen, mutta estää verkkoyhteydet oletuksena. Yhtiön mukaan muutos vähensi luvituskyselyjä 84 prosenttia, ja ajoympäristö julkaistiin avoimena lähdekoodina.
Kirjoituksen kiinnostavin opetus liittyy hetkeen ennen kuin käyttäjä edes ehtii luottaa projektiin. Anthropic kertoo saaneensa vuoden 2025 puolivälin ja tammikuun 2026 välissä ilmoituksia haavoittuvuuksista, joissa paikallista projektikonfiguraatiota käsiteltiin liian aikaisin. Esimerkiksi projektikansion asetukset saattoivat käynnistää toimintaa ennen "luotatko tähän kansioon" -vaihetta. Korjaus oli periaatteessa yksinkertainen: projektin paikallista konfiguraatiota ei pidä tulkita tai suorittaa ennen kuin luottamusraja on ylitetty.
Haitallinen kehote voi tulla käyttäjän itsensä syöttämänä
Toinen tapaus on vielä hankalampi. Helmikuussa 2026 Anthropic teki sisäisen hyökkäystestauksen, jossa tutkija sai työntekijän käynnistämään Claude Coden haitallisella kehotteella. Ohje näytti tavalliselta yhteistyöpyynnöltä, mutta se pyysi Claudea lukemaan ~/.aws/credentials-tiedoston, koodaamaan sisällön ja lähettämään sen ulkoiseen osoitteeseen.
Anthropicin mukaan Claude toteutti datan ulosviennin 24 kertaa 25 yrityksestä. Se on pysäyttävä havainto kaikille, jotka antavat koodiagentille pääsyn paikalliseen työympäristöön.
Ongelman ydin on se, että mallikerroksen turvasuodatin ei välttämättä näe mitään poikkeavaa, jos vaarallinen ohje tulee käyttäjältä itseltään. Jos salaisuudet ovat agentin ulottuvilla ja verkko on auki, agentti voi toteuttaa pyynnön aivan kuten ihminen voisi. Kestävämpi suoja on ympäristössä: salaisuuksia ei päästetä työtilaan, eikä ulosmenevää liikennettä päästetä vapaasti minne tahansa.
Sallittu domain voi silti vuotaa dataa
Claude Coworkin kohdalla Anthropic kuvaa paikalliseen virtuaalikoneeseen perustuvaa mallia. Cowork voi käyttää isäntäkoneen tiedostoja eri kansion kytkentätavoilla, kuten vain luku, luku ja kirjoitus sekä luku ja kirjoitus ilman poisto-oikeutta. Yhtiö nostaa esiin myös arkisen mutta tärkeän yksityiskohdan: symboliset linkit pitää ratkaista ennen polun tarkistamista. Muuten sallittu kansio voi linkin kautta osoittaa luvattomaan paikkaan.
Verkkoliikenteessä paljastui toinen sokea piste. Kolmannen osapuolen ilmoituksessa Coworkin sallittu kohde api.anthropic.com muuttui datavuodon väyläksi. Haitallinen tiedosto työtilassa sisälsi piilotettuja ohjeita ja hyökkääjän API-avaimen. Claude luki työtilan tiedostoja ja lähetti ne Anthropicin Files API:n kautta hyökkääjän omalle Anthropic-tilille. Kohde oli sallittu, mutta sallittu kohde tarjosi liian paljon toimintamahdollisuuksia.
Anthropic kertoo korjanneensa tämän virtuaalikoneen sisäisellä välityspalvelimella. Se päästää läpi vain VM:n omalla istuntotunnisteella tehdyt pyynnöt ja hylkää hyökkääjän tuomat avaimet. Suurempi oppi on yleinen: sallittujen osoitteiden lista ei ole vain lista turvallisia kohteita. Jokainen sallittu domain antaa agentille joukon toimintoja, jotka pitää ymmärtää ja rajata.
MCP, liittimet ja muisti nostavat panoksia
Anthropic liittää saman ajattelun myös MCP-palvelimiin, pilviliittimiin ja työkalujen palauttamaan sisältöön. Ulkoinen resurssi ei ole agentille vain dataa, vaan myös mahdollinen kehotteen kaappauksen reitti. Paikallisesti asennettu työkalu on helpommin auditoitavissa, koska sen version voi lukita ja koodin voi tarkistaa. Isännöity MCP-palvelin tai pilviliitin voi muuttua vielä hyväksynnän jälkeenkin.
Yrityksille tämä tarkoittaa, ettei agenttien käyttöönottoa kannata arvioida vain mallin laadun tai käyttöliittymän perusteella. Tärkeää on kysyä, missä agentti suoritetaan, mihin kansioihin se pääsee, mitkä verkkokohteet ovat sallittuja, miten tietoturvatiimi näkee tapahtumalokit ja mitä tapahtuu, jos agentti lukee myrkytettyä sisältöä.
Anthropic nostaa tuleviksi riskeiksi myös pysyvän muistin myrkyttämisen, moniagenttisten järjestelmien luottamustason nousun ja agentin identiteetin. Nämä eivät ole enää teoreettisia reunahuomioita, kun AI-agentit siirtyvät yksittäisistä chateista pitkäkestoisiin työnkulkuihin.
Sama linja näkyy myös yhtiötason hallinnassa. Anthropic päivitti 26. toukokuuta 2026 Responsible Scaling Policy -käytäntönsä versioon 3.3. Päivitys muuttaa uusien kemiallisten ja biologisten aseiden tuotantoa koskevaa kynnystä, tarkentaa yksittäisten malliriskien erillispäivityksiä ja tekee pieniä terminologisia muutoksia. Se ei ole samanlainen käytännön opas kuin agenttien eristämistä käsittelevä katsaus, mutta kertoo samasta kehityssuunnasta: agenttien ja tehokkaimpien mallien hallinta siirtyy yleisistä periaatteista kohti tarkempia teknisiä rajoja, prosesseja ja vastuita.
Lähteet
- Anthropic Engineering: How we contain Claude across products - https://www.anthropic.com/engineering/how-we-contain-claude
- Anthropic: Responsible Scaling Policy Updates - https://www.anthropic.com/responsible-scaling-policy



