Home Politiek De nieuwste AI -modellen van Openai hebben een nieuwe beveiliging om biorisks...

De nieuwste AI -modellen van Openai hebben een nieuwe beveiliging om biorisks te voorkomen

4
0

Openai zegt dat het een nieuw systeem heeft ingezet om zijn nieuwste AI-redeneermodellen, O3 en O4-Mini, te controleren op aanwijzingen met betrekking tot biologische en chemische bedreigingen. Het systeem is bedoeld om te voorkomen dat de modellen advies geven dat iemand kan instrueren bij het uitvoeren van potentieel schadelijke aanvallen, volgens het veiligheidsrapport van Openai.

O3 en O4-mini vertegenwoordigen een zinvolle capaciteitstoename ten opzichte van de eerdere modellen van Openai, zegt het bedrijf, en vormen zo nieuwe risico’s in de handen van slechte actoren. Volgens de interne benchmarks van Openai is O3 meer bekwaam in het beantwoorden van vragen over het creëren van bepaalde soorten biologische bedreigingen in het bijzonder. Om deze reden-en om andere risico’s te verminderen-heeft OpenAI het nieuwe monitoringsysteem gemaakt, dat het bedrijf beschrijft als een ‘op veiligheidsgerichte redeneringsmonitor’.

De monitor, op maat opgeleid om te redeneren over het inhoudsbeleid van Openai, loopt bovenop O3 en O4-Mini. Het is ontworpen om aanwijzingen met betrekking tot biologisch en chemisch risico te identificeren en de modellen te instrueren om te weigeren advies over die onderwerpen te geven.

Om een ​​basislijn te vestigen, liet Openai rode teamers ongeveer 1000 uur besteden aan het markeren van “onveilige” biorisk-gerelateerde gesprekken van O3 en O4-Mini. Tijdens een test waarin Openai de “blokkerende logica” van zijn veiligheidsmonitor simuleerde, weigerden de modellen volgens Openai te reageren op risicovolle prompts 98,7% van de tijd.

Openai erkent dat de test geen rekening houdt met mensen die mogelijk nieuwe aanwijzingen proberen nadat ze door de monitor zijn geblokkeerd, daarom zegt het bedrijf dat het gedeeltelijk zal blijven vertrouwen op menselijke monitoring.

O3 en O4-Mini kruisen volgens het bedrijf niet de “hoge risico” drempel van Openai voor biorisks. In vergelijking met O1 en GPT-4 zegt Openai echter dat vroege versies van O3 en O4-Mini nuttiger bleken bij het beantwoorden van vragen over het ontwikkelen van biologische wapens.

Grafiek van de systeemkaart van O3 en O4-Mini (Screenshot: OpenAI)

Het bedrijf volgt actief hoe zijn modellen het voor kwaadaardige gebruikers gemakkelijker kunnen maken om chemische en biologische bedreigingen te ontwikkelen, volgens het recent bijgewerkte paraatheidskader van Openai.

Openai vertrouwt in toenemende mate op geautomatiseerde systemen om de risico’s van zijn modellen te verminderen. Om te voorkomen dat de inheemse beeldgenerator van GPT-4O bijvoorbeeld niet-seksueel misbruikmateriaal (CSAM) van kinderen maakt, zegt OpenAI dat het op een redeneermonitor gebruikt die vergelijkbaar is met die van het bedrijf dat is ingezet voor O3 en O4-mini.

Toch hebben verschillende onderzoekers hun bezorgdheid geuit die Openai niet zo prioriteit geeft aan veiligheid als het zou moeten. Een van de rood-teampartners van het bedrijf, Metr, zei dat het relatief weinig tijd had om O3 op een benchmark te testen op bedrieglijk gedrag. Ondertussen besloot Openai geen veiligheidsrapport uit te brengen voor zijn GPT-4.1-model, dat eerder deze week werd gelanceerd.

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in