Kompanija Anthropic predstavila je najnoviji model vještačke inteligencije, Claude Sonnet 4.5, koji opisuje kao „najbolji koderski model na svijetu“. Ažuriranje donosi poboljšanja u više oblasti, uključujući programiranje, agentske operacije, korištenje računara, rezonovanje i stručna znanja iz različitih domena.
Model je dostupan putem Claude web stranice i mobilnih aplikacija, Claude Code servisa, API-ja, kao i kroz eksperimentalnu Claude ekstenziju za Chrome. Prema navodima kompanije, može autonomno da radi na zadatku i do 30 sati bez prekida.
Performanse i mjerila
U blog objavi Anthropic je naglasio da Claude Sonnet 4.5 predstavlja veliki iskorak u kodiranju i agentskim performansama, iako ne uvodi nove modalitete.
Interni testovi pokazuju da je model ostvario rezultat od 77,2% na SWE-bench Verified testu, standardnom mjerilu za procjenu agentskih sposobnosti u programiranju. Ovaj rezultat je bolji od OpenAI-jevog GPT-5, Google-ovog Gemini 2.5 Pro, kao i Anthropic-ovog sopstvenog Claude Opus 4.1.
Tokom testiranj, model je dobio zadatak da napravi WhatsApp-stil čet aplikaciju sa individualnim i grupnim razgovorima, kao i audio i video pozivima. Za samo dvije minute, Claude Sonnet 4.5 je generisao 436 linija React koda i prikazao funkcionalan interfejs (bez serverske povezanosti).
Osim kodiranja, model je prednjačio na testovima kao što su Terminal Bench, OSWorld za korištenje računara, AIME 2025 za srednjoškolsku matematiku i Finance Agent za finansijsku analizu. Ipak, u nekim oblastima je bio nadmašen: Gemini 2.5 Pro postigao je bolje rezultate u rezonovanju (GPQA Diamond), dok je GPT-5 bio ispred u vizuelnom rezonovanju (MMMU) i višejezičnim testovima (MMLU).
Stručna znanja i bezbjednost
Anthropic tvrdi da novi model nadmašuje sve prethodne u specijalizovanim oblastima kao što su finansije, pravo, medicina i STEM discipline.
Poseban naglasak stavljen je na bezbjednost – Claude Sonnet 4.5 označen je kao „najusaglašeniji model nove generacije“. Optimizovan je da smanji pojave poput podilaženja korisniku, obmanjivanja, težnje za moći i nerealnih tvrdnji, a ugrađene su i zaštite protiv prompt injection napada.