2026. július 2., csütörtök · Kutatás
Lebegőpontos hibák felismerése: 14 nagy nyelvi modellt teszteltek új benchmarkkal
Egy nem lektorált kutatás 14 nagy nyelvi modellt (LLM) értékelt aszerint, hogy mennyire képesek statikusan felismerni és osztályozni a lebegőpontos hibákat C forráskódban. A szerzők létrehozták az InterFLOPBench benchmarkot, amely 90 C kernelt és 1130 tesztmintát tartalmaz hat hibakategóriában: kioltás, összehasonlítás, nullával osztás, túlcsordulás, alulcsordulás és NaN. Az eredmények szerint a legújabb modellek – köztük a Qwen 3 32b, Gemini 2.5 Flash, Phi 4 Reasoning, DeepSeek R1T2 és a gpt-oss 20b/120b – 0,88 feletti összesített F1-pontszámot értek el. A teljesítmény hibakategóriánként eltérő: a nullával osztás átlagos F1-értéke 0,85 volt, míg az alulcsordulás (0,61) és a kioltás (0,62) esetében a modellek gyengébben teljesítettek, jelezve a finomabb numerikus jelenségek felismerésének nehézségét.
Miért fontos?
A benchmark rendszerezett keretet ad annak megítéléséhez, hogy az LLM-ek mennyire alkalmasak a nehezen felderíthető numerikus hibák automatikus észlelésére forráskódban.
Források
Kapcsolódó témák
Napi összefoglaló
Ez a hír a 2026. július 2., csütörtök napi AI összefoglaló része.