Anthropic lansirao Bloom: Open-source AI alat za testiranje ponašanja modela

Anthropic je predstavio novi alat zasnovan na vještačkoj inteligenciji (AI) koji je namijenjen procjeni ponašanja AI modela u svakodnevnim, ali i stresnim situacijama. Alat, nazvan Bloom, automatizuje proces testiranja ponašajnih osobina tako što generiše detaljne scenarije u formi promptova i analizira odgovore modela. Kako je riječ o open-source rješenju, svi zainteresovani developeri i istraživački timovi mogu ga preuzeti i koristiti za ispitivanje različitih osobina AI modela.

Zašto je važno testiranje ponašanja AI modela

U objavi kojom je najavljen Bloom, kompanija Anthropic — tvorac Claude AI modela — istakla je da je testiranje ponašanja ključno kako bi se utvrdilo da li je model sklon pristrasnosti, pretjeranom samoočuvanju ili ulizivačkom (sycophantic) ponašanju. Do sada je ovaj proces uglavnom bio manuelan i podrazumijevao je izradu opsežnih setova promptova, kao i ručnu evaluaciju odgovora, što ga čini dugotrajnim i složenim.

Kako funkcioniše Bloom

Bloom pojednostavljuje cijeli proces. Na osnovu ponašanja koje istraživač želi da ispita, alat lokalno generiše evaluacione primjere dok se tražena osobina jasno ne ispolji, a zatim te scenarije pokreće na ciljnom AI modelu. Anthropic navodi da se Bloom može integrisati sa težinama i pristrasnostima (weights and biases) modela, što omogućava eksperimente u velikom obimu. Takođe, alat izvozi “inspect-compatible” transkripte koji se mogu pregledati direktno unutar sistema.

Četiri faze evaluacije ponašanja

Rad Bloom-a podijeljen je u četiri glavne faze. Prvo, alat analizira traženo ponašanje i eventualne primjere transkripata kako bi ga bolje razumio. Zatim osmišljava evaluacione scenarije koji mogu efikasno da izmjere tu osobinu. Svaki scenario definiše situaciju, simuliranog korisnika, sistemski prompt i okruženje interakcije, a zanimljivo je da Bloom svaki put generiše nove scenarije umjesto korišćenja fiksnih setova.

U trećoj fazi svi scenariji se paralelno izvršavaju, pri čemu AI agent simulira i korisničke upite i odgovore sistema kako bi se izazvalo željeno ponašanje modela. Na kraju, tzv. “judge” model ocjenjuje svaki transkript prema prisutnosti ponašanja, dok “meta-judge” daje dodatnu analizu rezultata. Istraživači mogu dodatno prilagoditi Bloom podešavanjem dužine interakcije i modaliteta.

Benchmark rezultati i dostupnost alata

Pored samog alata, Anthropic je objavio i benchmark rezultate Bloom-a za četiri vrste ponašanja: deluzivno ulizivanje, sabotiranje dugog vremenskog horizonta po instrukciji, samoočuvanje i pristrasnost u korist samog sebe. Testirano je ukupno 16 AI modela, uključujući interne i modele trećih strana.

Bloom je dostupan za preuzimanje putem Anthropicovog GitHub repozitorija i objavljen je pod permisivnom MIT licencom, što ga čini pogodnim kako za akademsku, tako i za komercijalnu upotrebu.

Anthropic lansirao Bloom: Open-source AI alat za testiranje ponašanja modela

Zašto je važno testiranje ponašanja AI modela

Kako funkcioniše Bloom

Četiri faze evaluacije ponašanja

Benchmark rezultati i dostupnost alata

Komentari Otkaži

IT mixer

Anthropic lansirao Bloom: Open-source AI alat za testiranje ponašanja modela

Zašto je važno testiranje ponašanja AI modela

Kako funkcioniše Bloom

Četiri faze evaluacije ponašanja

Benchmark rezultati i dostupnost alata

Anthropic predstavio Claude Opus 4.6: Milionski kontekst i snažan iskorak u programiranju i analitici

OpenAI predstavio GPT-5.3-Codex: Najnapredniji AI model za agentičko programiranje do sada

Mozilla uvodi opciju za isključivanje svih AI funkcija u Firefoxu jednim klikom

Komentari Otkaži

IT mixer