Anthropic je predstavio novi alat zasnovan na vještačkoj inteligenciji (AI) koji je namijenjen procjeni ponašanja AI modela u svakodnevnim, ali i stresnim situacijama. Alat, nazvan Bloom, automatizuje proces testiranja ponašajnih osobina tako što generiše detaljne scenarije u formi promptova i analizira odgovore modela. Kako je riječ o open-source rješenju, svi zainteresovani developeri i istraživački timovi mogu ga preuzeti i koristiti za ispitivanje različitih osobina AI modela.

 

Zašto je važno testiranje ponašanja AI modela

 

U objavi kojom je najavljen Bloom, kompanija Anthropic — tvorac Claude AI modela — istakla je da je testiranje ponašanja ključno kako bi se utvrdilo da li je model sklon pristrasnosti, pretjeranom samoočuvanju ili ulizivačkom (sycophantic) ponašanju. Do sada je ovaj proces uglavnom bio manuelan i podrazumijevao je izradu opsežnih setova promptova, kao i ručnu evaluaciju odgovora, što ga čini dugotrajnim i složenim.

 

Kako funkcioniše Bloom

 

Bloom pojednostavljuje cijeli proces. Na osnovu ponašanja koje istraživač želi da ispita, alat lokalno generiše evaluacione primjere dok se tražena osobina jasno ne ispolji, a zatim te scenarije pokreće na ciljnom AI modelu. Anthropic navodi da se Bloom može integrisati sa težinama i pristrasnostima (weights and biases) modela, što omogućava eksperimente u velikom obimu. Takođe, alat izvozi “inspect-compatible” transkripte koji se mogu pregledati direktno unutar sistema.

 

Četiri faze evaluacije ponašanja

 

Rad Bloom-a podijeljen je u četiri glavne faze. Prvo, alat analizira traženo ponašanje i eventualne primjere transkripata kako bi ga bolje razumio. Zatim osmišljava evaluacione scenarije koji mogu efikasno da izmjere tu osobinu. Svaki scenario definiše situaciju, simuliranog korisnika, sistemski prompt i okruženje interakcije, a zanimljivo je da Bloom svaki put generiše nove scenarije umjesto korišćenja fiksnih setova.

U trećoj fazi svi scenariji se paralelno izvršavaju, pri čemu AI agent simulira i korisničke upite i odgovore sistema kako bi se izazvalo željeno ponašanje modela. Na kraju, tzv. “judge” model ocjenjuje svaki transkript prema prisutnosti ponašanja, dok “meta-judge” daje dodatnu analizu rezultata. Istraživači mogu dodatno prilagoditi Bloom podešavanjem dužine interakcije i modaliteta.

 

Benchmark rezultati i dostupnost alata

 

Pored samog alata, Anthropic je objavio i benchmark rezultate Bloom-a za četiri vrste ponašanja: deluzivno ulizivanje, sabotiranje dugog vremenskog horizonta po instrukciji, samoočuvanje i pristrasnost u korist samog sebe. Testirano je ukupno 16 AI modela, uključujući interne i modele trećih strana.

Bloom je dostupan za preuzimanje putem Anthropicovog GitHub repozitorija i objavljen je pod permisivnom MIT licencom, što ga čini pogodnim kako za akademsku, tako i za komercijalnu upotrebu.