Google kokeilee tekstidiffuusiota
Google julkaisi 10. kesäkuuta 2026 DiffusionGemman, kokeellisen avoimen mallin, jonka pääidea on vähentää paikallisen tekstigeneroinnin viivettä. Tavallinen autoregressiivinen kielimalli tuottaa tekstiä vasemmalta oikealle, yksi token kerrallaan. DiffusionGemma luonnostelee ja korjaa 256 tokenin lohkoja rinnakkain.
Muutos on kiinnostava erityisesti paikallisen tekoälyn kannalta. Pilvessä suuria käyttäjämääriä voidaan palvella tehokkaasti eräajolla, mutta yksittäisen käyttäjän omalla GPU:lla token kerrallaan etenevä malli voi jättää laskentatehoa vajaakäytölle. DiffusionGemma pyrkii siirtämään pullonkaulaa muistikaistasta laskentaan, jotta kiihdytin saa enemmän rinnakkaista työtä.
Malli perustuu Gemma 4 -perheeseen ja Gemini Diffusion -tutkimukseen. Google kuvaa sitä 26 miljardin parametrin Mixture of Experts -malliksi, joka aktivoi päättelyn aikana 3,8 miljardia parametria. DiffusionGemma julkaistiin Apache 2.0 -lisenssillä.
Nopeus ratkaisee
Googlen mukaan DiffusionGemma voi tuottaa tekstiä erillisillä GPU:illa jopa neljä kertaa nopeammin kuin vastaava perinteinen ratkaisu. Yhtiö antaa esimerkeiksi yli 1 000 tokenia sekunnissa yhdellä NVIDIA H100:lla ja yli 700 tokenia sekunnissa GeForce RTX 5090:llä.
Kvantisoituna malli on suunniteltu mahtumaan 18 gigatavun VRAM-rajaan, joten se ei ole vain datakeskusten kokeilu. Se on suunnattu myös tehokkaille kuluttaja- ja työasema-GPU:ille, joissa viiveellä on käytännön merkitystä: editorissa, koodityökalussa tai paikallisessa analyysiputkessa vastausta ei haluta odottaa samalla tavalla kuin pilvichatissa.
Teknisesti tärkeää on kaksisuuntainen huomio ja iteratiivinen itsekorjaus. Koska malli käsittelee koko työstettävän lohkon samanaikaisesti, se voi korjata aiemmin syntyneitä virheitä saman lohkon sisällä.
Google nostaa hyödyllisiksi käyttökohteiksi esimerkiksi koodin täydentämisen, tekstin sisäiset muokkaukset, epälineaariset tekstirakenteet, aminohapposekvenssit ja matemaattiset verkot.
Laatu vaatii harkintaa
DiffusionGemma ei ole suora korvaaja parhaalle tuotantomallille. Google sanoo suoraan, että tavalliset Gemma 4 -mallit ovat edelleen suositus silloin, kun sovellus tarvitsee mahdollisimman hyvää tekstilaatua. DiffusionGemma painottaa nopeutta ja rinnakkaista generointia, joten sen luontevin paikka on reaaliaikaisissa ja interaktiivisissa työnkuluissa.
Myös suorituskykylupaus pitää rajata oikein. Googlen mukaan etu on vahvimmillaan paikallisessa ja pienen tai keskisuuren eräkoon päättelyssä yhdellä kiihdyttimellä. Suuressa pilvipalvelussa autoregressiiviset mallit voivat jo käyttää laskentaa tehokkaasti eräajolla, jolloin DiffusionGemman hyöty voi pienentyä ja kustannus nousta.
Google huomauttaa lisäksi, että Apple Siliconin kaltaisissa yhtenäismuistin arkkitehtuureissa sama nopeutuminen ei välttämättä toteudu, koska ne ovat usein muistikaistan rajoittamia.
Kehittäjäpolku on jo olemassa
Google julkaisi DiffusionGemmalle kehittäjäoppaan, jossa malli voidaan käynnistää vLLM:n kautta OpenAI-yhteensopivana paikallisena palvelimena. Painot ovat saatavilla Hugging Facessa, ja Google mainitsee tuetuiksi poluiksi myös Hugging Face Transformersin, SGLangin, MLX:n, Model Gardenin ja NVIDIA NIMin.
Hienosäätöä varten Google ohjaa Hackable Diffusionin, Unslothin ja NVIDIA NeMon resepteihin. NVIDIA julkaisi samana päivänä oman tukensa ja kertoo optimoineensa mallia GeForce RTX -näytönohjaimille, RTX PRO -alustalle, DGX Spark -järjestelmille sekä Hopper- ja Blackwell-luokan palvelinympäristöihin.
DiffusionGemman merkitys ei ole vain yhdessä uudessa mallissa. Julkaisu näyttää, että avoimissa malleissa kilpaillaan nyt myös sillä, kuinka nopeasti malli reagoi, voiko se toimia paikallisesti ja tuntuuko se osalta työkalua eikä erilliseltä chatbotilta.



