2026. június 30., kedd · Kutatás

Új módszerek az AI-ágensek hallucinációjának csökkentésére és hatékonyabb tanítására

Két egymást kiegészítő, nem lektorált kutatás foglalkozik az AI-ágensek megbízhatóságával. A GILP (Grounded Iterative Language Planning) nevű megközelítés egy kisméretű, tanított világmodellt kombinál LLM-alapú tervezéssel: a betanított modell ellenőrzi az LLM által javasolt lépéseket, és inkonzisztencia esetén revíziót kér. A szerzők szerint GPT-4o-mini hívásokon a hallucinált állapotváltozások aránya 0,176-ról 0,035-re csökkent, míg a sikerráta kalibrált szimulációkban 0,668-ról 0,838-ra nőtt, mindössze ~22%-kal több LLM-hívás árán. Az ATOD nevű módszer pedig a kis nyelvi modellek többlépéses feladatokra való tanítását javítja: az on-policy desztilláció és a megerősítéses tanulás fokozatos keverésével a tanármodellt is felülmúló teljesítményt ért el az ALFWorld, WebShop és Search-QA benchmarkokon – a szerzők állítása szerint átlagosan 2,16 százalékponttal.

Miért fontos?

Mindkét preprint konkrét, mérhető javulást mutat az AI-ágensek megbízhatóságában és tanítási hatékonyságában.

Források

Kapcsolódó témák

Napi összefoglaló

Ez a hír a 2026. június 30., kedd napi AI összefoglaló része.

Kapcsolódó hírek

Eszközökkel kiegészített LLM-ágensek teljesítménye valós energiapiaci elemzési feladatokon

Egy új, az arXiv-on megjelent preprint empirikus vizsgálatot mutat be arról, hogyan teljesítenek eszközökkel (API-k, adatbázisok, optimalizálási modellek) felszerelt nagy nyelvi modell (LLM) alapú ágensek valós energiapiaci elemzési feladatokon. A kutatók 243, szakértők által összeállított feladatot hoztak létre három kategóriában: piaci adatlekérés és elemzés, szabályozási tudás visszakeresése, valamint haladó kvantitatív modellezés és döntéstámogatás. Az értékelés többdimenziós protokollt alkalmaz, amely a megközelítés helyességét, a válasz pontosságát, az attribútum-illeszkedést és a forrásérvényességet is méri. A szerzők zárt és nyílt forráskódú LLM-eket egyaránt teszteltek, vizsgálva a modellképesség és a szakterületi eszköztár kölcsönhatását. Az eredmények és az eszközök nyilvánosan elérhetők a reprodukálhatóság érdekében.

NormAct: új benchmark méri, hogy az AI-tervezők felismerik-e a rejtett társadalmi normákat

A NormAct nevű benchmark azt vizsgálja, képesek-e a multimodális nagy nyelvi modellek (MLLM-ek) a megtestesült (embodied) cselekvéstervezés során nemcsak az explicit célokat teljesíteni, hanem a ki nem mondott társadalmi normákat is betartani. A még nem lektorált kutatás szerint a tesztelt modellek (a szerzők GPT-5.4, Claude Opus 4.7 és Gemini 3 Pro megjelöléssel hivatkoznak rájuk) az explicit célokat az esetek 67,3%-ában érték el, de a rejtett normákat mindössze 26,4%-ban tartották be. A kutatók kimutatták, hogy a lemaradás nem az általános társadalmi tudás hiányából fakad, hanem abból, hogy a modellek nehezen aktiválják a releváns normákat a kontextusban. Megoldásként a NormPerceptor nevű kontextusfüggő jelzésgenerátort javasolják, amely a tervezés előtt feltárja a jelenethez illő normákat, és a teljes feladatsikert 24,2%-ról 46,7%-ra növelte a szerzők mérései alapján.

Kódoló LLM-ek nem értik a szoftverek futási viselkedését – új értékelési keretrendszer mutatja a hiányosságokat

Egy nem lektorált kutatási tanulmány új megközelítést javasol a kódgeneráló nagy nyelvi modellek értékeléséhez: a szerzők a tesztkimenet és a hibaosztályok előrejelzése mellett a csúcsmemória-használat, a valós futási idő és a profilozó által rangsorolt metódus- és sorszintű erőforrás-fogyasztás becslését is vizsgálják. Az adatok forrásául a SWE-bench Verified benchmarkot használták, hogy az értékelés közel álljon a valós szoftvermérnöki feladatokhoz. A szerzők állítása szerint valamennyi tesztelt modell – beleértve az élvonalbeli rendszereket is – csak szerény teljesítményt mutatott és törékeny viselkedést tanúsított ezeken a feladatokon. Ez arra utal, hogy a jelenlegi LLM-ek a forráskód írásában jóval erősebbek, mint annak megértésében, hogyan viselkedik a szoftver futás közben, vagyis hiányzik belőlük egy implicit szoftver-világmodell.

3D diffúziós autoenkóderrel több száz szív-MRI fenotípust azonosítottak, közös genetikai háttérrel

Egy a Nature Communications-ben megjelent kutatás 71 017 UK Biobank résztvevő szív-MRI felvételeiből 3D diffúziós autoenkóder segítségével több száz látens szívfenotípust vezetett le. A szerzők szerint ezek a fenotípusok reprodukálhatók, örökölhetők (h²=4–18%), és szignifikánsan kapcsolódnak kardiometabolikus jellemzőkhöz. A genomszintű asszociációs vizsgálat (GWAS) 89 szignifikáns gyakori variánst azonosított 42 lókuszon, köztük hét korábban nem ismert lókuszt. Többszörös kolokalizációs elemzéssel a kutatók összekötötték a variánsokat a köztes szív-fenotípusoktól a szívbetegség-végpontokig. Emellett két nem lektorált preprint CNN- és kvantum-autoenkóder-alapú agyi MRI-elemzést mutatott be: az előbbi 97%-os pontossággal detektál agydaganatot, az utóbbi pedig ~0,95-ös ROC-AUC értékkel azonosít anomáliákat, de mindkettő kis adathalmazon készült, és még lektorálásra vár.