2026. június 29., hétfő · Kutatás

Princetoni kutatók tesztje szerint az AI-ügynökök többsége csődbe viszi a szimulált startupot

A Princeton Egyetem kutatói CEO-Bench nevű benchmarkot fejlesztettek, amelyben AI-ügynököknek kell 500 szimulált napon át egy fiktív szoftvercéget irányítaniuk egymillió dolláros induló tőkével. A The Decoder beszámolója szerint a tesztelt modellek közül mindössze három végzett a kiinduló tőkénél magasabb egyenleggel, a többség pedig csődbe ment. Figyelemre méltó, hogy egy egyszerű, szabályalapú heurisztika – mesterséges intelligencia nélkül – szinte az összes AI-modellt felülmúlta. A kutatók szerint az AI-ügynökök egyre jobbak rövid, egyértelmű feladatokban, de a hosszú távú, bizonytalanság melletti stratégiai döntéshozatal – amit ők irányítási intelligenciának neveznek – alapvetően más képességeket igényel, amelyeket a jelenlegi modellek még nem tudnak felmutatni.

Miért fontos?

A benchmark rámutat, hogy a mai AI-modellek stratégiai, hosszú távú vállalatvezetési döntéshozatalban még egy egyszerű szabályalapú rendszernél is rosszabbul teljesítenek.

Források

The Decoder Nemzetközi sajtó

Kapcsolódó témák

Napi összefoglaló

Ez a hír a 2026. június 29., hétfő napi AI összefoglaló része.

Kapcsolódó hírek

A Sina háromparaméteres VibeThinker-3B modellje a százszor nagyobb modellek szintjén teljesít matekban és kódolásban

A kínai Sina (Weibo anyavállalata) kiadta VibeThinker-3B modelljét, amely mindössze 3 milliárd paraméterrel egyes matematikai és kódolási benchmarkokon – a cég technikai jelentése szerint – a 200-333-szor nagyobb modellekkel, például a DeepSeek V3.2-vel és a Kimi K2.5-tel vetekszik. A modell az Alibaba Qwen2.5-Coder-3B alapmodelljére épül, a teljesítményt többlépcsős utóképzéssel érik el. A LeetCode-versenyeken (2026 április–május) 128-ból 123 feladatot elsőre megoldott, megelőzve a GPT-5.2-t és a Claude Opus 4.6-ot – állítja a Sina. Ugyanakkor a széles tárgyi tudást igénylő GPQA-Diamond benchmarkon a modell jelentősen elmarad nagyobb riválisaitól. A kutatók következtetése szerint a strukturált logikai gondolkodás jól tömöríthető kis modellekbe, de a faktikus világtudás továbbra is nagy paraméterszámot igényel.

A Tencent kutatói szerint az AI csak akkor lesz valódi munkatárs, ha feladatokat fejez be, nem csak válaszokat generál

A Tencent Youtu Lab és több kínai egyetem kutatói egy összefoglaló tanulmányban azt vizsgálják, hogyan fejlődhetnek a nagy nyelvi modellek chatbotból valódi digitális kollégává.

Eszközökkel kiegészített LLM-ágensek teljesítménye valós energiapiaci elemzési feladatokon

Egy új, az arXiv-on megjelent preprint empirikus vizsgálatot mutat be arról, hogyan teljesítenek eszközökkel (API-k, adatbázisok, optimalizálási modellek) felszerelt nagy nyelvi modell (LLM) alapú ágensek valós energiapiaci elemzési feladatokon. A kutatók 243, szakértők által összeállított feladatot hoztak létre három kategóriában: piaci adatlekérés és elemzés, szabályozási tudás visszakeresése, valamint haladó kvantitatív modellezés és döntéstámogatás. Az értékelés többdimenziós protokollt alkalmaz, amely a megközelítés helyességét, a válasz pontosságát, az attribútum-illeszkedést és a forrásérvényességet is méri. A szerzők zárt és nyílt forráskódú LLM-eket egyaránt teszteltek, vizsgálva a modellképesség és a szakterületi eszköztár kölcsönhatását. Az eredmények és az eszközök nyilvánosan elérhetők a reprodukálhatóság érdekében.

Kutatók feltárták a multimodális nagy nyelvi modellek értékelésének hiányosságait

Egy új, az arXiv-on megjelent preprint (arXiv:2606.26348v1) szerint a multimodális nagy nyelvi modellek (MLLM-ek) értékelése nem tartott lépést e rendszerek gyors fejlődésével. A szerzők áttekintik a jelenlegi benchmark-taxonómiát, és rámutatnak több konkrét hiányosságra: a térbeli-időbeli koherencia, a fizikai világ megértése, valamint a modalitások közötti valódi információintegráció mérése jelenleg alig kap figyelmet. A tanulmány szerint a legtöbb létező benchmark elszigetelt feladatokra korlátozódik, és keveset árul el arról, hogy a modell ténylegesen képes-e több modalitás – szöveg, kép, hang, videó – együttes feldolgozására. Fontos hangsúlyozni, hogy a kutatás preprint formában jelent meg, így lektorált eredményként nem kezelhető.