2026. július 4., szombat · Kutatás

CLAP: zárt hurkú keretrendszer domain-specifikus AI-ágensek utótréningjéhez

A CLAP keretrendszer az AI-ágensek finomhangolását, kiértékelését és kiadásvezérlését egyetlen zárt hurkú folyamatba integrálja – a szerzők nem lektorált kutatási munkában mutatják be. Öt gyártási szcenárión tesztelve a LoRA-SFT csak szerény javulást ért el (pontszám +0,0098, megfelelési arány +0,024), és csupán 3 az 5 tételből javult; a GRPO magas KL-kockázatot mutatott. Az alkalmazáslánc-visszajátszás szerint RAG-orientált adapterrel javulnak a kulcsmezők és a bizonyítékillesztés, de nő a késleltetés. A szerzők amellett érvelnek, hogy az utótréninget integrált ciklusként kell kezelni, nem egyetlen offline metrika alapján.

Miért fontos?

Rendszerszintű keretrendszert javasol ipari AI-ágensek finomhangolásának megbízhatóbb kezelésére, rámutatva a pusztán offline kiértékelés korlátaira.

Források

Kapcsolódó témák

Napi összefoglaló

Ez a hír a 2026. július 4., szombat napi AI összefoglaló része.

Kapcsolódó hírek

Auto-FL-Research: ágens-alapú keresés föderált tanulási algoritmusok tervezési tereiben

Az Auto-FL-Research (AFR) egy korlátozott kódoló-ágens munkafolyamat, amely föderált tanulási algoritmusok receptjeinek automatizált keresését végzi – szerver-aggregációs szabályokat, kliens-frissítési ütemezéseket és modellvariánsokat vizsgálva. A szerzők öt egészségügyi FLamby- és hat LEAF-feladaton értékelték a rendszert ötszörös ismétléssel: négy FLamby- és öt LEAF-feladaton javulás mutatható ki. A nem lektorált tanulmány ugyanakkor rámutat, hogy egyes nyereségek skaláris hangolásból vagy szelekciós torzításból adódnak, és ismételt értékeléskor nem reprodukálódnak. A fő hozzájárulás e vegyes eredmények szisztematikus szétválasztása: valódi FL-mechanizmus-változások, hangolási hatások és egyszeri futásbeli artefaktumok elkülönítése.

Meta-benchmarking keretrendszer pénzügyi szektorban használt nyelvi modellek célzott értékeléséhez

Egy nem lektorált tanulmány olyan meta-benchmarking keretrendszert mutat be, amely 452 nyilvános benchmarkot 41 O*NET munkatevékenységbe és 38 BIAN banki üzleti területbe szervez a nagy nyelvi modellek pénzügyi szektorra szabott értékelésére. A szerzők szerint a jelenlegi rangsorok globális átlagra optimalizálnak, így nem tükrözik a pénzügyi munka speciális követelményeit. A keretrendszer multiplikatív súlyozással és páros Elo-tornával állít elő összehasonlítható pontszámokat nyers normalizálás nélkül. A módszertant egy 2026. júniusi pillanatfelvételen demonstrálják 25 szervezet 288 modelljén, a reprodukálhatóságot szem előtt tartva.

ContextSniper: tokenhatékony kódmemória-réteg, amely felére csökkenti a tokenhasználatot repó-szintű hibajavításnál

Az AntTrail csapata ContextSniper néven tokenhatékony kontextuskezelő réteget mutatott be, amely nagy nyelvi modellek ügynökein működve célzottan szűri a kódjavításhoz szükséges bizonyítékokat. A rendszer hibrid keresési jelekkel rangsorolja a releváns kódrészleteket, szándéktudatos szűrőn engedi át a hosszú kimeneteket, és kompakt evidenciacsomagokat ad vissza a modellnek. A szerzők nem lektorált preprintjükben a SWE-bench Lite benchmarkon, OpenClaw és Claude Code ügynökökkel végzett kísérleteikről számolnak be: az OpenClaw esetében 51,5%-kal, a Claude Code-nál 38,9%-kal csökkent a tokenfelhasználás, míg a javítási sikerráta csak kis mértékben esett vissza (26%-ról 24%-ra, illetve 32%-ról 30%-ra). A tesztelő szkriptjeiket nyílt forráskóddal tették elérhetővé.

COMPASS: mesterséges intelligencia jósolja meg az immunterápia hatékonyságát daganattípusokon átívelően

A Nature Medicine-ben megjelent tanulmány bemutatja a COMPASS nevű alapmodellt, amely daganatok génexpressziós adataiból képes megjósolni az immun checkpoint gátló (ICI) terápiára adott választ. A modell 44 biológiailag megalapozott immunológiai koncepciót kódol, és 10 184 tumor adatain, 33 ráktípuson tanították. A szerzők szerint a COMPASS 16 klinikai kohorszon, hét ráktípusnál és hat ICI-készítménynél átlagosan 8,5%-kal pontosabb és 15,7%-kal jobb precíziós-felidézési görbealatti értéket ér el, mint 22 korábbi módszer. A válaszadónak minősített betegek szignifikánsan hosszabb túlélést mutattak (kockázati arány: 4,7; P < 0,0001). A modell olyan, a betanítás során nem látott ráktípusokra és kezelésekre is általánosítható – állítják a kutatók –, és személyre szabott válasz-térképeket generál, amelyek a rezisztencia lehetséges mechanizmusait is feltárják.