Home Politiek Openai’s O3 AI -model scoort lager op een benchmark dan het bedrijf...

Openai’s O3 AI -model scoort lager op een benchmark dan het bedrijf aanvankelijk impliceerde

9
0

Een discrepantie tussen de benchmarkresultaten van de eerste en derden voor het O3 AI-model van Openai roept vragen op over de transparantie van het bedrijf en de modellentestmethoden.

Toen Openai in december O3 onthulde, beweerde het bedrijf dat het model iets meer dan een vierde van vragen over FrontiMath kon beantwoorden, een uitdagende reeks wiskundige problemen. Die score blies de concurrentie weg-het op een na beste model slaagde erin om slechts ongeveer 2% van de frontiMath-problemen correct te beantwoorden.

“Vandaag hebben alle aanbiedingen minder dan 2% [on FrontierMath]”Mark Chen, Chief Research Officer bij Openai, zei tijdens een livestream.” We zien ons [internally]met O3 in agressieve testtijd rekeninstellingen, kunnen we meer dan 25%krijgen. ”

Het blijkt dat dat cijfer waarschijnlijk een bovengrens was, bereikt door een versie van O3 met meer computer erachter dan het model Openai vorige week publiekelijk gelanceerd.

Epoch AI, het onderzoeksinstituut achter FrontiMath, publiceerde vrijdag resultaten van zijn onafhankelijke benchmarktests van O3. Epoch ontdekte dat O3 ongeveer 10%scoorde, ruim onder de hoogst geëiste score van Openai.

Dat betekent niet dat Openai op zichzelf loog. De benchmarkresultaten die het bedrijf in december heeft gepubliceerd, tonen een lagere score die overeenkomt met het waargenomen score-tijdperk. Epoch merkte ook op dat de testopstelling waarschijnlijk verschilt van Openai’s, en dat het een bijgewerkte release van FrontiMath gebruikte voor zijn evaluaties.

“Het verschil tussen onze resultaten en Openai’s kan te wijten zijn aan OpenAI die evalueert met een krachtigere interne steiger, met meer testtijd [computing]of omdat die resultaten werden uitgevoerd op een andere subset van frontiMath (de 180 problemen in Frontiermath-2024-11-26 versus de 290 problemen in Frontiermath-2025-02-28-private), schreef Epoch.

Volgens een bericht op X van de Arc Prize Foundation, een organisatie die een pre-release-versie van O3 testte, is het publieke O3-model “een ander model […] afgestemd op chat/productgebruik, ”het rapport van Epoch bevestigt.

“Alle vrijgegeven O3 -rekenlagen zijn kleiner dan de versie die we [benchmarked]’Schreef Arc Prize. Over het algemeen kan worden verwacht dat grotere rekenlagen betere benchmark -scores zullen bereiken.

Toegegeven, het feit dat de openbare release van O3 tekort schiet bij de testbeloften van Openai, is een beetje een betwisting, omdat de O3-Mini-High- en O4-Mini-modellen van het bedrijf in de komende weken beter presteren dan O3 op Frontiermath en Openai is van plan een krachtigere O3-variant, O3-Pro, te debuteren.

Het is echter een andere herinnering dat AI -benchmarks het beste niet tegen de nominale waarde kunnen worden genomen – vooral wanneer de bron een bedrijf is met diensten om te verkopen.

Benchmarking “controverses” worden een veel voorkomend voorkomen in de AI -industrie als leveranciers racen om krantenkoppen en mindshare te veroveren met nieuwe modellen.

In januari werd Epoch bekritiseerd omdat hij wachtte om de financiering van Openai bekend te maken tot nadat het bedrijf O3 had aangekondigd. Veel academici die hebben bijgedragen aan FrontiMath waren pas op de hoogte van de betrokkenheid van Openai totdat deze openbaar werd gemaakt.

Meer recent werd de XAI van Elon Musk beschuldigd van het publiceren van misleidende benchmarkgrafieken voor zijn nieuwste AI -model, GROK 3. Deze maand gaf Meta toe dat hij benchmark -scores had aangeprezen voor een versie van een model van een model dat verschilde van die van het bedrijf dat het bedrijf beschikbaar stelde voor ontwikkelaars.


LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in