2026. június 30., kedd · Kutatás
NormAct: új benchmark méri, hogy az AI-tervezők felismerik-e a rejtett társadalmi normákat
A NormAct nevű benchmark azt vizsgálja, képesek-e a multimodális nagy nyelvi modellek (MLLM-ek) a megtestesült (embodied) cselekvéstervezés során nemcsak az explicit célokat teljesíteni, hanem a ki nem mondott társadalmi normákat is betartani. A még nem lektorált kutatás szerint a tesztelt modellek (a szerzők GPT-5.4, Claude Opus 4.7 és Gemini 3 Pro megjelöléssel hivatkoznak rájuk) az explicit célokat az esetek 67,3%-ában érték el, de a rejtett normákat mindössze 26,4%-ban tartották be. A kutatók kimutatták, hogy a lemaradás nem az általános társadalmi tudás hiányából fakad, hanem abból, hogy a modellek nehezen aktiválják a releváns normákat a kontextusban. Megoldásként a NormPerceptor nevű kontextusfüggő jelzésgenerátort javasolják, amely a tervezés előtt feltárja a jelenethez illő normákat, és a teljes feladatsikert 24,2%-ról 46,7%-ra növelte a szerzők mérései alapján.
Miért fontos?
Az eredmények rámutatnak, hogy az AI-ágensek a hallgatólagos társadalmi szabályok felismerésében és betartásában még súlyos hiányosságokkal küzdenek.
Források
Kapcsolódó témák
Napi összefoglaló
Ez a hír a 2026. június 30., kedd napi AI összefoglaló része.