2026. június 30., kedd · Kutatás

Kódoló LLM-ek nem értik a szoftverek futási viselkedését – új értékelési keretrendszer mutatja a hiányosságokat

Egy nem lektorált kutatási tanulmány új megközelítést javasol a kódgeneráló nagy nyelvi modellek értékeléséhez: a szerzők a tesztkimenet és a hibaosztályok előrejelzése mellett a csúcsmemória-használat, a valós futási idő és a profilozó által rangsorolt metódus- és sorszintű erőforrás-fogyasztás becslését is vizsgálják. Az adatok forrásául a SWE-bench Verified benchmarkot használták, hogy az értékelés közel álljon a valós szoftvermérnöki feladatokhoz. A szerzők állítása szerint valamennyi tesztelt modell – beleértve az élvonalbeli rendszereket is – csak szerény teljesítményt mutatott és törékeny viselkedést tanúsított ezeken a feladatokon. Ez arra utal, hogy a jelenlegi LLM-ek a forráskód írásában jóval erősebbek, mint annak megértésében, hogyan viselkedik a szoftver futás közben, vagyis hiányzik belőlük egy implicit szoftver-világmodell.

Miért fontos?

Rámutat, hogy a kódoló LLM-ek futásidejű erőforrás-becslési képessége gyenge, ami az AI-alapú szoftverfejlesztés megbízhatóságát korlátozhatja.

Források

arXiv cs.AI Preprint

Kapcsolódó témák

Napi összefoglaló

Ez a hír a 2026. június 30., kedd napi AI összefoglaló része.

Kapcsolódó hírek

Új módszerek az AI-ágensek hallucinációjának csökkentésére és hatékonyabb tanítására

Két egymást kiegészítő, nem lektorált kutatás foglalkozik az AI-ágensek megbízhatóságával. A GILP (Grounded Iterative Language Planning) nevű megközelítés egy kisméretű, tanított világmodellt kombinál LLM-alapú tervezéssel: a betanított modell ellenőrzi az LLM által javasolt lépéseket, és inkonzisztencia esetén revíziót kér. A szerzők szerint GPT-4o-mini hívásokon a hallucinált állapotváltozások aránya 0,176-ról 0,035-re csökkent, míg a sikerráta kalibrált szimulációkban 0,668-ról 0,838-ra nőtt, mindössze ~22%-kal több LLM-hívás árán. Az ATOD nevű módszer pedig a kis nyelvi modellek többlépéses feladatokra való tanítását javítja: az on-policy desztilláció és a megerősítéses tanulás fokozatos keverésével a tanármodellt is felülmúló teljesítményt ért el az ALFWorld, WebShop és Search-QA benchmarkokon – a szerzők állítása szerint átlagosan 2,16 százalékponttal.

NormAct: új benchmark méri, hogy az AI-tervezők felismerik-e a rejtett társadalmi normákat

A NormAct nevű benchmark azt vizsgálja, képesek-e a multimodális nagy nyelvi modellek (MLLM-ek) a megtestesült (embodied) cselekvéstervezés során nemcsak az explicit célokat teljesíteni, hanem a ki nem mondott társadalmi normákat is betartani. A még nem lektorált kutatás szerint a tesztelt modellek (a szerzők GPT-5.4, Claude Opus 4.7 és Gemini 3 Pro megjelöléssel hivatkoznak rájuk) az explicit célokat az esetek 67,3%-ában érték el, de a rejtett normákat mindössze 26,4%-ban tartották be. A kutatók kimutatták, hogy a lemaradás nem az általános társadalmi tudás hiányából fakad, hanem abból, hogy a modellek nehezen aktiválják a releváns normákat a kontextusban. Megoldásként a NormPerceptor nevű kontextusfüggő jelzésgenerátort javasolják, amely a tervezés előtt feltárja a jelenethez illő normákat, és a teljes feladatsikert 24,2%-ról 46,7%-ra növelte a szerzők mérései alapján.

3D diffúziós autoenkóderrel több száz szív-MRI fenotípust azonosítottak, közös genetikai háttérrel

Egy a Nature Communications-ben megjelent kutatás 71 017 UK Biobank résztvevő szív-MRI felvételeiből 3D diffúziós autoenkóder segítségével több száz látens szívfenotípust vezetett le. A szerzők szerint ezek a fenotípusok reprodukálhatók, örökölhetők (h²=4–18%), és szignifikánsan kapcsolódnak kardiometabolikus jellemzőkhöz. A genomszintű asszociációs vizsgálat (GWAS) 89 szignifikáns gyakori variánst azonosított 42 lókuszon, köztük hét korábban nem ismert lókuszt. Többszörös kolokalizációs elemzéssel a kutatók összekötötték a variánsokat a köztes szív-fenotípusoktól a szívbetegség-végpontokig. Emellett két nem lektorált preprint CNN- és kvantum-autoenkóder-alapú agyi MRI-elemzést mutatott be: az előbbi 97%-os pontossággal detektál agydaganatot, az utóbbi pedig ~0,95-ös ROC-AUC értékkel azonosít anomáliákat, de mindkettő kis adathalmazon készült, és még lektorálásra vár.

A Flexion Robotics humanoid robotja önállóan navigál irodai környezetben, szimulációban tanult készségek kombinálásával

A svájci Flexion Robotics – amelyet volt Nvidia-robotikai kutatók alapítottak – egy módosított Unitree humanoid robotot mutatott be, amely szöveges utasítás alapján önállóan hajt végre összetett irodai feladatokat: lépcsőzik, lifttel közlekedik, ajtót nyit, csomagot bont és polcra pakol. A cég állítása szerint a rendszer lényege, hogy az egyes készségeket (járás, egyensúlyozás, tárgyak kezelése) szimulációban tanítják be megerősítéses tanulással, majd egy fő AI-modell – amely emberekről készült videókból tanulja meg a cselekvések sorrendjét – valós időben kombinálja ezeket. A megközelítés a Flexion szerint hatékonyabb a szokásos teleoperált betanításnál, mert kevesebb emberi beavatkozást igényel, és ismeretlen környezetben is működik. A bemutató egyetlen videón alapul, így a rendszer megbízhatóságáról és általánosíthatóságáról egyelőre nem áll rendelkezésre független értékelés.