2026. június 29., hétfő · Kutatás
Princetoni kutatók tesztje szerint az AI-ügynökök többsége csődbe viszi a szimulált startupot
A Princeton Egyetem kutatói CEO-Bench nevű benchmarkot fejlesztettek, amelyben AI-ügynököknek kell 500 szimulált napon át egy fiktív szoftvercéget irányítaniuk egymillió dolláros induló tőkével. A The Decoder beszámolója szerint a tesztelt modellek közül mindössze három végzett a kiinduló tőkénél magasabb egyenleggel, a többség pedig csődbe ment. Figyelemre méltó, hogy egy egyszerű, szabályalapú heurisztika – mesterséges intelligencia nélkül – szinte az összes AI-modellt felülmúlta. A kutatók szerint az AI-ügynökök egyre jobbak rövid, egyértelmű feladatokban, de a hosszú távú, bizonytalanság melletti stratégiai döntéshozatal – amit ők irányítási intelligenciának neveznek – alapvetően más képességeket igényel, amelyeket a jelenlegi modellek még nem tudnak felmutatni.
Miért fontos?
A benchmark rámutat, hogy a mai AI-modellek stratégiai, hosszú távú vállalatvezetési döntéshozatalban még egy egyszerű szabályalapú rendszernél is rosszabbul teljesítenek.
Források
Kapcsolódó témák
Napi összefoglaló
Ez a hír a 2026. június 29., hétfő napi AI összefoglaló része.