Home Politiek Een nieuwe, uitdagende AGI -teststronken de meeste AI -modellen

Een nieuwe, uitdagende AGI -teststronken de meeste AI -modellen

12
0

De Arc Prize Foundation, een non-profitorganisatie die mede is opgericht door prominente AI-onderzoeker François Chollet, kondigde maandag in een blogpost aan dat het een nieuwe, uitdagende test heeft gecreëerd om de algemene intelligentie van toonaangevende AI-modellen te meten.

Tot nu toe heeft de nieuwe test, genaamd Arc-AGI-2, de meeste modellen gestompt.

“Redenering” AI-modellen zoals Openai’s O1-Pro en Deepseek’s R1-score tussen 1% en 1,3% op ARC-AGI-2, volgens het Arc Prize Leaderboard. Krachtige niet-herhalingsmodellen waaronder GPT-4.5, Claude 3.7 Sonnet en Gemini 2.0 Flash-score rond 1%.

De ARC-AGI-tests bestaan ​​uit puzzelachtige problemen waarbij een AI visuele patronen moet identificeren uit een verzameling van verschillende gekleurde vierkanten en het juiste “antwoord” rooster genereren. De problemen zijn ontworpen om een ​​AI te dwingen zich aan te passen aan nieuwe problemen die het nog niet eerder heeft gezien.

De ARC Prize Foundation had meer dan 400 mensen om ARC-AGI-2 te nemen om een ​​menselijke basislijn te vestigen. Gemiddeld kregen ‘panelen’ van deze mensen 60% van de vragen van de test goed – veel beter dan de scores van de modellen.

Een voorbeeldvraag van ARC-AGI-2 (krediet: boogprijs).

In een post op X beweerde Chollet dat Arc-AGI-2 een betere maat is voor de feitelijke intelligentie van een AI-model dan de eerste iteratie van de test, Arc-Agi-1. De tests van de ARC Prize Foundation zijn gericht op het evalueren of een AI -systeem nieuwe vaardigheden kan verwerven buiten de gegevens waarop het is getraind.

Chollet zei dat de nieuwe test in tegenstelling tot ARC-AGI-1 voorkomt dat AI-modellen vertrouwen op “brute kracht”-uitgebreide rekenkracht-om oplossingen te vinden. Chollet erkende eerder dat dit een grote fout van Arc-Agi-1 was.

Om de fouten van de eerste test aan te pakken, introduceert ARC-AGI-2 een nieuwe meetwaarde: efficiëntie. Het vereist ook modellen om patronen meteen te interpreteren in plaats van te vertrouwen op memorisatie.

“Intelligentie wordt niet alleen bepaald door het vermogen om problemen op te lossen of hoge scores te bereiken,” schreef mede-oprichter van Arc Prize Foundation Greg Kamradt in een blogpost. “De efficiëntie waarmee die mogelijkheden worden overgenomen en geïmplementeerd, is een cruciale, bepalende component. De kernvraag die wordt gesteld is niet alleen: ‘Kan AI verwerven [the] Vaardigheid om een ​​taak op te lossen? ‘ Maar ook, ‘op welke efficiëntie of kosten?’ “

Arc-Agi-1 was ongeveer vijf jaar ongeslagen tot december 2024, toen Openai zijn geavanceerde redeneermodel, O3, uitbracht, dat alle andere AI-modellen overtrof en de menselijke prestaties bij de evaluatie overeenkwam. Zoals we destijds echter hebben opgemerkt, kwam de prestaties van O3 op Arc-Agi-1 met een flink prijskaartje.

De versie van het O3-model van Openai-O3 (Low)-die eerst nieuwe hoogten bereikte op Arc-Agi-1, die 75,7% scoorde op de test, kreeg een miezerige 4% op ARC-AGI-2 met $ 200 aan rekenkracht per taak.

Vergelijking van Frontier AI-modelprestaties op ARC-AGI-1 en ARC-AGI-2 (Credit: Arc Prize).

De komst van ARC-AGI-2 komt, omdat velen in de technische industrie nieuwe, onverzadigde benchmarks oproepen om AI-voortgang te meten. De mede-oprichter van Hugging Face, Thomas Wolf, vertelde TechCrunch onlangs dat de AI-industrie onvoldoende tests mist om de belangrijkste eigenschappen van zogenaamde kunstmatige algemene intelligentie te meten, inclusief creativiteit.

Naast de nieuwe benchmark kondigde de ARC Prize Foundation een nieuwe ARC Prize 2025-wedstrijd aan, die ontwikkelaars uitdagen om 85% nauwkeurigheid te bereiken op de ARC-AGI-2-test en tegelijkertijd $ 0,42 per taak uitgeeft.

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in