Home Politiek Openai’s O3 AI -model scoort lager op een benchmark dan het bedrijf...

Politiek

Openai’s O3 AI -model scoort lager op een benchmark dan het bedrijf aanvankelijk impliceerde

Door

april 20, 2025

Een discrepantie tussen de benchmarkresultaten van de eerste en derden voor het O3 AI-model van Openai roept vragen op over de transparantie van het bedrijf en de modellentestmethoden.

Toen Openai in december O3 onthulde, beweerde het bedrijf dat het model iets meer dan een vierde van vragen over FrontiMath kon beantwoorden, een uitdagende reeks wiskundige problemen. Die score blies de concurrentie weg-het op een na beste model slaagde erin om slechts ongeveer 2% van de frontiMath-problemen correct te beantwoorden.

“Vandaag hebben alle aanbiedingen minder dan 2% [on FrontierMath]”Mark Chen, Chief Research Officer bij Openai, zei tijdens een livestream.” We zien ons [internally]met O3 in agressieve testtijd rekeninstellingen, kunnen we meer dan 25%krijgen. ”

Het blijkt dat dat cijfer waarschijnlijk een bovengrens was, bereikt door een versie van O3 met meer computer erachter dan het model Openai vorige week publiekelijk gelanceerd.

Epoch AI, het onderzoeksinstituut achter FrontiMath, publiceerde vrijdag resultaten van zijn onafhankelijke benchmarktests van O3. Epoch ontdekte dat O3 ongeveer 10%scoorde, ruim onder de hoogst geëiste score van Openai.

Openai heeft O3 uitgebracht, hun langverwachte redeneermodel, samen met O4-Mini, een kleiner en goedkoper model dat O3-Mini opvolgt.

We hebben de nieuwe modellen geëvalueerd op onze suite van wiskunde- en wetenschapsbenchmarks. Resulteert in thread! pic.twitter.com/5gbtzkey1b

– Epoch AI (@epochairesearch) 18 april 2025

Dat betekent niet dat Openai op zichzelf loog. De benchmarkresultaten die het bedrijf in december heeft gepubliceerd, tonen een lagere score die overeenkomt met het waargenomen score-tijdperk. Epoch merkte ook op dat de testopstelling waarschijnlijk verschilt van Openai’s, en dat het een bijgewerkte release van FrontiMath gebruikte voor zijn evaluaties.

“Het verschil tussen onze resultaten en Openai’s kan te wijten zijn aan OpenAI die evalueert met een krachtigere interne steiger, met meer testtijd [computing]of omdat die resultaten werden uitgevoerd op een andere subset van frontiMath (de 180 problemen in Frontiermath-2024-11-26 versus de 290 problemen in Frontiermath-2025-02-28-private), schreef Epoch.

Volgens een bericht op X van de Arc Prize Foundation, een organisatie die een pre-release-versie van O3 testte, is het publieke O3-model “een ander model […] afgestemd op chat/productgebruik, ”het rapport van Epoch bevestigt.

“Alle vrijgegeven O3 -rekenlagen zijn kleiner dan de versie die we [benchmarked]’Schreef Arc Prize. Over het algemeen kan worden verwacht dat grotere rekenlagen betere benchmark -scores zullen bereiken.

Toegegeven, het feit dat de openbare release van O3 tekort schiet bij de testbeloften van Openai, is een beetje een betwisting, omdat de O3-Mini-High- en O4-Mini-modellen van het bedrijf in de komende weken beter presteren dan O3 op Frontiermath en Openai is van plan een krachtigere O3-variant, O3-Pro, te debuteren.

Het is echter een andere herinnering dat AI -benchmarks het beste niet tegen de nominale waarde kunnen worden genomen – vooral wanneer de bron een bedrijf is met diensten om te verkopen.

Benchmarking “controverses” worden een veel voorkomend voorkomen in de AI -industrie als leveranciers racen om krantenkoppen en mindshare te veroveren met nieuwe modellen.

In januari werd Epoch bekritiseerd omdat hij wachtte om de financiering van Openai bekend te maken tot nadat het bedrijf O3 had aangekondigd. Veel academici die hebben bijgedragen aan FrontiMath waren pas op de hoogte van de betrokkenheid van Openai totdat deze openbaar werd gemaakt.

Meer recent werd de XAI van Elon Musk beschuldigd van het publiceren van misleidende benchmarkgrafieken voor zijn nieuwste AI -model, GROK 3. Deze maand gaf Meta toe dat hij benchmark -scores had aangeprezen voor een versie van een model van een model dat verschilde van die van het bedrijf dat het bedrijf beschikbaar stelde voor ontwikkelaars.

Openai’s O3 AI -model scoort lager op een benchmark dan het bedrijf aanvankelijk impliceerde

LAAT EEN REACTIE ACHTER Annuleer reactie

MOST COMMENTED

Hoe tarieven de supermarktprijzen zullen beïnvloeden, volgens een professor in de agro-economie

Puget Systems zegt dat het voorlopig pc -tariefkosten zal absorberen, maar de prijzen zal...

Democraten verklaren hun partij ‘spineless’, proberen een economisch populistisch veld

POPULAR CATEGORY

GERELATEERDE ARTIKELENMEER VAN DEZE AUTEUR

Ik wist niet hoeveel ik van Apple Sports hield totdat de Mets het beste team in honkbal werd

The Morning After: Google geeft Android zijn eigen show

Asus Vivobook Pro 15 Review: voor makers en gamers