3dnews.ru relatează că niciunul dintre modelele de inteligență artificială de top nu a reușit să treacă noul test de inteligență generală ARC-AGI-2. Conform rezultatelor testelor, sistemele de raționament - o1-pro de la OpenAI și R1 de la DeepSeek - au obținut doar 1-1,3% răspunsuri corecte, în timp ce modelele fără raționament (GPT-4.5, Claude 3.7 Sonnet și Gemini 2.0 Flash) au obținut mai puțin de 1%.
ARC-AGI-2 este o serie de puzzle-uri vizuale care necesită ca inteligența artificială să recunoască modelele de culoare și să le rezolve fără a se baza pe experiența anterioară. Provocarea elimină metodele de forță brută și necesită ca modelele să „interpreteze modelele din mers”, așa cum subliniază cofondatorul fundației, Greg Kamradt: „Inteligența este determinată nu numai de capacitatea de a rezolva probleme sau de a obține rezultate înalte, ci și de eficiența cu care aceste capacități sunt dobândite și implementate.”.
Testele au relevat o diferență uriașă între mașini și oameni - peste 400 de voluntari au finalizat în medie 60% din sarcini. ARC-AGI-2 înlocuiește versiunea anterioară, ARC-AGI-1, în care inteligența artificială putea reuși folosind puterea de calcul, ceea ce era considerat un „deficit serios”, a declarat François Chollet, cofondator al fundației. „ARC-AGI-2 este o măsură mai precisă a inteligenței reale a modelelor de inteligență artificială.”.
Noul test a coincis cu îngrijorarea crescândă a industriei cu privire la lipsa unor indicatori obiectivi pentru evaluarea inteligenței artificiale. Ca răspuns, Fundația Arc Prize a anunțat competiția Arc Prize 2025 cu următoarele cerințe:
- Precizie de 85% pe ARC-AGI-2
- costuri de calcul de maximum 0,42 USD per sarcină
Scopul competiției este de a stimula dezvoltarea de modele eficiente, capabile să se adapteze la probleme nefamiliare fără resurse astronomice.




