OpenAI ja Anthropic julkaisivat huippumallit samana päivänä
OpenAI ja Anthropic julkaisivat molemmat uudet lippulaivamallina 5. helmikuuta 2026. OpenAI:n GPT-5.3-Codex on yhtiön toistaiseksi kehittynein koodausmalli, kun taas Anthropicin Claude Opus 4.6 laajentaa kontekstin miljoonaan tokeniin ja tuo mukanaan agenttitiimiominaisuuden.
GPT-5.3-Codex pähkinänkuoressa
OpenAI:n mukaan GPT-5.3-Codex yhdistää GPT-5.2-Codexin koodaussuorituskyvyn ja GPT-5.2:n päättelykyvyn yhteen malliin. Malli on 25 % nopeampi kuin edeltäjänsä.
Merkittävä yksityiskohta: GPT-5.3-Codex on ensimmäinen OpenAI:n malli, jota käytettiin sen omassa kehityksessä. Tiimi hyödynsi varhaisia versioita virheiden etsimiseen, käyttöönottoon ja evaluointien diagnosointiin.
Saatavuus: Kaikki maksulliset ChatGPT-tilaajat (Plus 20 $/kk, Pro 200 $/kk, Business 30 $/käyttäjä/kk). API-pääsy tulossa lähiviikkoina.
Claude Opus 4.6 pähkinänkuoressa
Anthropicin Opus 4.6 tuo kolme merkittävää uudistusta:
- 1 miljoonan tokenin konteksti-ikkuna (beta) – noin 750 000 sanaa yhdessä istunnossa
- 128K max output – tuplattu edellisestä 64K:sta
- Agenttitiimiominaisuus (Agent Teams) – Claude Code voi jakaa tehtävän usealle agentille rinnakkaisesti
Saatavuus: Anthropic API, AWS Bedrock, Google Vertex AI ja Microsoft Foundry. Malli-ID: claude-opus-4-6.
Hinnoittelu: 5 $/25 $ (input/output per miljoona tokenia), pitkä konteksti (200K+) 10 $/37,50 $.
Suorituskykytestit vertailussa
| Testi | GPT-5.3-Codex | Claude Opus 4.6 | Ero |
|---|---|---|---|
| SWE-Bench Verified | 56,8 % (SWE-Bench Pro) | 80,8 % | Opus selvästi edellä |
| Terminal-Bench 2.0 | 77,3 % | 65,4 % | GPT-5.3 edellä |
| OSWorld-Verified | 64,7 % | 72,7 % | Opus edellä |
| GDPval-AA (Elo) | – | 1 606 | Opus +190 vs. Opus 4.5 |
| MRCR v2 (1M tokenia) | – | 76 % | Sonnet 4.5: 18,5 % |
| BigLaw Bench | – | 90,2 % | Oikeudellinen päättely |
Vertailu on monimutkainen, koska mallit testaavat eri benchmarkeilla. GPT-5.3-Codex dominoi Terminal-Bench 2.0 -testissä (77,3 % vs. 65,4 %), joka mittaa päätepohjaisia koodaustehtäviä. Claude Opus 4.6 puolestaan johtaa SWE-Bench Verified -testissä (80,8 %) ja OSWorldissa (72,7 %).
Biotieteet: Opus 4.6:n vahvuusalue
Claude Opus 4.6 tekee selvää pesäeroa biotieteiden benchmarkeissa:
- BioPipelineBench: 53,1 % (Opus 4.5: 28,5 %)
- BioMysteryBench: 61,5 % (ylittää ihmisasiantuntijoiden tason)
- Rakennebiologia: 88,3 %
Elicit-tutkimustyökalu raportoi 85 % recall-arvon biopharma-benchmarkissa – 12 prosenttiyksikön parannus ilman promptien säätöä.
Kuka voittaa?
Yksiselitteistä voittajaa ei ole. GPT-5.3-Codex on parempi valinta päätepohjaisten koodaustehtävien automatisointiin, ja se tukee reaaliaikaista vuorovaikutusta pitkien tehtävien aikana. Claude Opus 4.6 puolestaan soveltuu paremmin laajoja dokumentteja vaativiin tehtäviin miljoonan tokenin kontekstillaan ja tieteelliseen analyysiin.
Hinnoittelussa Opus 4.6:n API-hinnat ovat jo julki (5 $/25 $ per miljoona tokenia), kun taas GPT-5.3-Codexin API-hinnoittelua ei ole vielä julkistettu. Edellisen GPT-5.2-Codexin hinta oli 1,75 $/14 $ per miljoona tokenia.
Molemmat mallit ovat saatavilla ChatGPT- ja Claude-tilausten kautta ilman lisämaksua.



