2026. július 2., csütörtök · Kutatás

Megerősítéses tanulás az AI-ágensek finomhangolásában: NVIDIA útmutató és új kutatási keretrendszerek

Az NVIDIA technikai blogján részletes útmutatót tett közzé arról, hogyan alkalmazható a megerősítéses tanulás (RL) – különösen a verifikálható jutalmakkal történő RL (RLVR) és a GRPO módszer – vállalati AI-ágensek domain-specifikus finomhangolására. A cég szerint a Nemotron 3 Super modellt 21 verifikáló környezetben, mintegy 1,2 millió rollout segítségével képezték, a NeMo RL ökoszisztéma pedig nyílt modellekhez kínál skálázható RL-eszközöket. Emellett két nem lektorált kutatási munka is megjelent: a HyPOLE keretrendszer formális logikával (HyperLTL) vezérli a többágenses RL-t részleges megfigyelhetőség mellett, míg egy másik tanulmány elektromos járművek flottáinak intelligens töltését vizsgálja független többágenses RL-megközelítésekkel. Mindhárom forrás azt jelzi, hogy az RL túllépett az általános modellképzésen, és egyre inkább gyakorlati, specializált feladatokban alkalmazzák.

Miért fontos?

Az RL módszerek terjedése a vállalati ágensektől a villamosenergia-hálózatokig mutatja, hogy a technika egyre szélesebb alkalmazási területeken válik gyakorlativá.

Források

NVIDIA Technical Blog Hivatalos arXiv cs.AI Preprint

Kapcsolódó témák

Napi összefoglalók AI kutatás #NVIDIA NeMo#megerősítéses tanulás

Napi összefoglaló

Ez a hír a 2026. július 2., csütörtök napi AI összefoglaló része.

Kapcsolódó hírek

Bayesi bizonytalanság-propagálás az ágensalapú RAG rendszerek megbízhatóságának javítására

Kutatók egy bizonytalanságtudatos keretrendszert mutattak be ágensalapú Retrieval-Augmented Generation (RAG) rendszerekhez, amelyben a tervező, kiértékelő és generáló szakaszok bizonytalansági jeleket állítanak elő szemantikai eltérés és önértékelés alapján. Ezeket a jeleket egy Bayes-hálón propagálják, hogy rendszerszintű bizonytalanságot becsüljenek, és a munkafolyamat egyes csomópontjainál jelezzék a lehetséges hibaforrásokat. A StrategyQA és HotpotQA adathalmazokon, GPT-3.5-Turbo és GPT-4.1-Nano modellekkel végzett kísérletek szerint a módszer a többlépéses következtetést igénylő HotpotQA-n hatékonyabb, míg a StrategyQA-n a rosszul kalibrált upstream jelek korlátozzák a teljesítményt. A nem lektorált tanulmány a megközelítést ígéretesnek, de előzetesnek minősíti, és ipari validálást – például tengeri szélenergia-karbantartási döntéstámogatásban – tart szükségesnek.

BoneCoT: egész testet lefedő csontáttét-diagnosztikai AI-modell 10 kórház adatain validálva

A Nature Biomedical Engineering folyóiratban publikált kutatás bemutatja a BoneCoT nevű alapmodellt, amelyet csontáttétek CT-alapú diagnosztizálására fejlesztettek. A modellt 29,3 millió CT-képen, 30 267 beteg adatain előtanították 12 csontrégióra, majd 26 klinikailag releváns feladatra – diagnózis, szövődmények, tumortípus és biomarkerek meghatározása – finomhangolták orvosi gondolatláncokkal (chain-of-thought). A szerzők szerint a modell 10 kórház többcentrumos kohortján 20%-kal felülmúlta a korábbi legjobb módszereket az AUC-metrikában, a primer és áttéti léziók elkülönítésében pedig 40%-os AUC-javulást ért el a tapasztalt radiológusokhoz képest. Az eredmények azt mutatják, hogy az orvosi gondolatmenetek integrálása az AI-tanulásba javíthatja a komplex diagnosztikai feladatok teljesítményét.

A Nature Neuroscience áttekintése: az idegi időskálák számítási szempontú szintézise

A Nature Neuroscience folyóiratban megjelent áttekintő cikk három számítási irányból vizsgálja, hogyan érthetők meg az agyi aktivitás eltérő időskálái. A szerzők – Zeraati, Levina, Macke és Gao – szintetizálják, hogy (1) különböző adatelemzési módszerek hogyan számszerűsítik az időskálákat viselkedési állapotok és mérési modalitások között; (2) biofizikai modellek milyen mechanisztikus magyarázatokat adnak az eltérő időskálák kialakulására; és (3) feladatvégző hálózatok és gépi tanulási modellek hogyan tárják fel az idegi időskálák funkcionális szerepét. A cikk szerint ez az integratív megközelítés kiegészíti a kísérleti kutatásokat, és holisztikus képet nyújt arról, miként tükrözik az idegi időskálák az agy szerkezete, dinamikája és viselkedése közötti összefüggéseket.

Lebegőpontos hibák felismerése: 14 nagy nyelvi modellt teszteltek új benchmarkkal

Egy nem lektorált kutatás 14 nagy nyelvi modellt (LLM) értékelt aszerint, hogy mennyire képesek statikusan felismerni és osztályozni a lebegőpontos hibákat C forráskódban. A szerzők létrehozták az InterFLOPBench benchmarkot, amely 90 C kernelt és 1130 tesztmintát tartalmaz hat hibakategóriában: kioltás, összehasonlítás, nullával osztás, túlcsordulás, alulcsordulás és NaN. Az eredmények szerint a legújabb modellek – köztük a Qwen 3 32b, Gemini 2.5 Flash, Phi 4 Reasoning, DeepSeek R1T2 és a gpt-oss 20b/120b – 0,88 feletti összesített F1-pontszámot értek el. A teljesítmény hibakategóriánként eltérő: a nullával osztás átlagos F1-értéke 0,85 volt, míg az alulcsordulás (0,61) és a kioltás (0,62) esetében a modellek gyengébben teljesítettek, jelezve a finomabb numerikus jelenségek felismerésének nehézségét.