LeCun jättää Metan – Llama 4:n benchmarkit “hieman säädettiin”
Jos benchmarkit ovat tekoälyn urheilutuloksia, tämä on kuin myöntäisi juosseensa 100 metriä… alamäkeen. Financial Timesin mukaan Yann LeCun kertoi, että Llama 4:n tuloksia “fudgattiin vähän”.
Mitä tapahtui?
Financial Times raportoi, että LeCun on lähdössä Metasta ja siirtyy uuden pariisilaisen startupin, AMI Labsin, johtohahmoksi. Yhtiö keskittyy LeCunin pitkäaikaiseen suosikkiin: world model -ajatteluun – eli malleihin, jotka rakentavat sisäisen “maailmankuvan” eivätkä vain ennusta seuraavaa sanaa.
Rahoituksesta ja arvostuksesta liikkuu isoja lukuja. TechCrunchin mukaan pöydällä on jopa noin 500 miljoonan euron kierros ja arvostus usean miljardin luokassa.
Mitä hän sanoi Llama 4 -benchmarketuloksista?
Financial Timesin haastattelussa LeCun sanoi, että Llama 4:n benchmarkkeja “fudgattiin vähän”. Käytännössä tämä tarkoitti hänen mukaansa sitä, että eri testeissä saatettiin käyttää eri mallivariantteja – eli ei välttämättä yhtä ja samaa mallia jokaiseen vertailuun.
Tämä osuu arkaan kohtaan, koska Llama 4:n julkaisun yhteydessä keväällä 2025 yhteisöissä jo epäiltiin tulosten olevan “liian hyviä ollakseen totta”. Tuolloin Meta kiisti syytökset ja sanoi, ettei mallia ollut koulutettu testisetin datalla.
Miksi tämä on merkittävää?
Benchmarkit ovat helppo tapa kertoa yhdellä numerolla “kumpi voittaa”, mutta niissä on kolme ongelmaa:
- Vertailtavuus: jos testissä käytetään eri varianttia, tulos ei kerro koko mallista vaan valikoidusta asetuksesta.
- Kannustimet: kun panoksena on miljardien markkina, tulosten kaunistelulle on liikaa houkutusta.
- Luottamus: jos yhteisö ei usko lukuihin, huomio siirtyy riippumattomiin vertailuihin ja käytännön käyttökokemuksiin.
Meta on viime vuosina profiloitunut “avoimen” mallijulkaisun kautta. Siksi pienikin epäselvyys benchmarkien raportoinnissa on brändillisesti iso.
AMI Labs ja world modelit: mistä LeCun puhuu?
LeCun on pitkään kritisoinut pelkkää tekstin ennustamista ja painottanut maailmalleja: järjestelmiä, jotka oppivat ympäristön rakenteita, syy–seuraussuhteita ja tekemään suunnitelmia.
Jos tämä onnistuu, hyöty ei näy vain chatissa, vaan esimerkiksi robotiikassa, agenttimaisissa järjestelmissä ja simulaatioissa. Mutta kuten aina: “world model” kuulostaa hienolta – todellinen läpimurto mitataan siinä, tuleeko siitä oikeasti luotettavaa toimintaa, ei vain komeita demoja.
Mitä seuraavaksi?
- AMI Labsin rahoituskierroksen ja rekrytointien eteneminen kertoo, kuinka vahvasti sijoittajat uskovat world model -tarinaan.
- Metan on todennäköisesti pakko selkeyttää, miten se raportoi benchmarkit (ja millä variantilla).
- Llama 4 -kohun pitkä häntä nähdään siinä, mitä riippumattomat testit ja tuotantokäyttö näyttävät.
Jari seuraa tekoälyn kehitystä niin, ettet sinun tarvitse.



