2026. június 30., kedd · Kutatás
Kódoló LLM-ek nem értik a szoftverek futási viselkedését – új értékelési keretrendszer mutatja a hiányosságokat
Egy nem lektorált kutatási tanulmány új megközelítést javasol a kódgeneráló nagy nyelvi modellek értékeléséhez: a szerzők a tesztkimenet és a hibaosztályok előrejelzése mellett a csúcsmemória-használat, a valós futási idő és a profilozó által rangsorolt metódus- és sorszintű erőforrás-fogyasztás becslését is vizsgálják. Az adatok forrásául a SWE-bench Verified benchmarkot használták, hogy az értékelés közel álljon a valós szoftvermérnöki feladatokhoz. A szerzők állítása szerint valamennyi tesztelt modell – beleértve az élvonalbeli rendszereket is – csak szerény teljesítményt mutatott és törékeny viselkedést tanúsított ezeken a feladatokon. Ez arra utal, hogy a jelenlegi LLM-ek a forráskód írásában jóval erősebbek, mint annak megértésében, hogyan viselkedik a szoftver futás közben, vagyis hiányzik belőlük egy implicit szoftver-világmodell.
Miért fontos?
Rámutat, hogy a kódoló LLM-ek futásidejű erőforrás-becslési képessége gyenge, ami az AI-alapú szoftverfejlesztés megbízhatóságát korlátozhatja.
Források
Kapcsolódó témák
Napi összefoglaló
Ez a hír a 2026. június 30., kedd napi AI összefoglaló része.