Mai briefing — 2026. június 30., kedd
AI hírek röviden
A nap fő iránya az AI-ágensek megbízhatóságának és korlátainak feltérképezése volt: a kutatási eredmények a hallucinációk csökkentésétől a társadalmi normák felismerésének hiányosságain át a kódoló modellek futásidejű vakságáig rajzolták ki, hol tart és hol akad el az ágensek önálló működése.
-
Új módszerek az AI-ágensek hallucinációjának csökkentésére és hatékonyabb tanítására
Két egymást kiegészítő, nem lektorált kutatás foglalkozik az AI-ágensek megbízhatóságával. A GILP (Grounded Iterative Language Planning) nevű megközelítés egy kisméretű, tanított világmodellt kombinál LLM-alapú tervezéssel: a betanított modell ellenőrzi az LLM által javasolt lépéseket, és inkonzisztencia esetén revíziót kér. A szerzők szerint GPT-4o-mini hívásokon a hallucinált állapotváltozások aránya 0,176-ról 0,035-re csökkent, míg a sikerráta kalibrált szimulációkban 0,668-ról 0,838-ra nőtt, mindössze ~22%-kal több LLM-hívás árán. Az ATOD nevű módszer pedig a kis nyelvi modellek többlépéses feladatokra való tanítását javítja: az on-policy desztilláció és a megerősítéses tanulás fokozatos keverésével a tanármodellt is felülmúló teljesítményt ért el az ALFWorld, WebShop és Search-QA benchmarkokon – a szerzők állítása szerint átlagosan 2,16 százalékponttal.
Miért fontos? Mindkét preprint konkrét, mérhető javulást mutat az AI-ágensek megbízhatóságában és tanítási hatékonyságában.
-
NormAct: új benchmark méri, hogy az AI-tervezők felismerik-e a rejtett társadalmi normákat
A NormAct nevű benchmark azt vizsgálja, képesek-e a multimodális nagy nyelvi modellek (MLLM-ek) a megtestesült (embodied) cselekvéstervezés során nemcsak az explicit célokat teljesíteni, hanem a ki nem mondott társadalmi normákat is betartani. A még nem lektorált kutatás szerint a tesztelt modellek (a szerzők GPT-5.4, Claude Opus 4.7 és Gemini 3 Pro megjelöléssel hivatkoznak rájuk) az explicit célokat az esetek 67,3%-ában érték el, de a rejtett normákat mindössze 26,4%-ban tartották be. A kutatók kimutatták, hogy a lemaradás nem az általános társadalmi tudás hiányából fakad, hanem abból, hogy a modellek nehezen aktiválják a releváns normákat a kontextusban. Megoldásként a NormPerceptor nevű kontextusfüggő jelzésgenerátort javasolják, amely a tervezés előtt feltárja a jelenethez illő normákat, és a teljes feladatsikert 24,2%-ról 46,7%-ra növelte a szerzők mérései alapján.
Miért fontos? Az eredmények rámutatnak, hogy az AI-ágensek a hallgatólagos társadalmi szabályok felismerésében és betartásában még súlyos hiányosságokkal küzdenek.
-
Kódoló LLM-ek nem értik a szoftverek futási viselkedését – új értékelési keretrendszer mutatja a hiányosságokat
Egy nem lektorált kutatási tanulmány új megközelítést javasol a kódgeneráló nagy nyelvi modellek értékeléséhez: a szerzők a tesztkimenet és a hibaosztályok előrejelzése mellett a csúcsmemória-használat, a valós futási idő és a profilozó által rangsorolt metódus- és sorszintű erőforrás-fogyasztás becslését is vizsgálják. Az adatok forrásául a SWE-bench Verified benchmarkot használták, hogy az értékelés közel álljon a valós szoftvermérnöki feladatokhoz. A szerzők állítása szerint valamennyi tesztelt modell – beleértve az élvonalbeli rendszereket is – csak szerény teljesítményt mutatott és törékeny viselkedést tanúsított ezeken a feladatokon. Ez arra utal, hogy a jelenlegi LLM-ek a forráskód írásában jóval erősebbek, mint annak megértésében, hogyan viselkedik a szoftver futás közben, vagyis hiányzik belőlük egy implicit szoftver-világmodell.
Miért fontos? Rámutat, hogy a kódoló LLM-ek futásidejű erőforrás-becslési képessége gyenge, ami az AI-alapú szoftverfejlesztés megbízhatóságát korlátozhatja.
-
Az AI-ügynökök munkatársként kezelése rontja az emberi hibakeresést és felelősségvállalást
Emma Wiles, a Boston University üzleti professzora által végzett kutatás szerint az emberek 18%-kal kevesebb hibát fedeztek fel, ha az AI által készített munkát egy AI alkalmazott.
Miért fontos? A kutatás érdemi bizonyítékot nyújt arra, hogy az AI-ügynökök antropomorfizálása rontja a munka minőségét.
-
Az ágens AI készenléte: 101 feladat rangsorolása mutatja, hol van szükség emberi felügyeletre
Az MIT Technology Review Insights kutatása 101 ágens AI-feladatot rangsorolt a technológiai csapatok körében mért bizalom alapján. A felmérés szerint a szakértők kiemelkedően magabiztosak az AI-, adat- és felhőfeladatok ágensalapú automatizálásában, az MIT Technology Review értékelése szerint azonban a bizalom ott csökken, ahol az ágenseknek összetett üzleti kontextust kellene feldolgozniuk. A Gartner 2026-ot nevezi fordulópontnak az AI-projektek stratégiai összehangolásában, a McKinsey pedig az IT-infrastruktúra költségeinek két-háromszoros növekedését vetíti előre 2030-ig, változatlan költségvetések mellett. A kutatás arra mutat rá, hogy a vállalati adatok ágensekbe való integrálása és a kontextusgenerálás még korai fejlesztési szakaszban van, az emberi felügyelet pedig a sikeres bevezetés kulcstényezője marad.
Miért fontos? Első átfogó rangsor mutatja meg, mely vállalati AI-ágensfeladatoknál elegendő az automatizálás, és hol nélkülözhetetlen az emberi kontroll.
-
Google: az EU versenyszabályai komoly adatvédelmi kockázatokkal járhatnak
Az Európai Bizottság várhatóan jövő hónapban jelent be új szabályokat a Google számára, amelyek a Gemini AI kizárólagos Android-integrációjának megszüntetését és anonimizált keresési adatok versenytársakkal való megosztását írhatják elő. A Google biztonsági alelnöke, Heather Adkins a Wirednek azt állította, hogy a változtatások heteken belül a csalások jelentős növekedéséhez vezethetnek az EU-ban. A cég szerint a modern AI-modellek képesek lehetnek az anonim adathalmazok visszafejtésére, belső csapataik pedig állítólag sikeresen azonosítottak egyéneket ilyen adatokból. A Google valós adatvédelmi aggályokként értékeli az intézkedéseket, ugyanakkor a lépések antimonopolista pozícióvédelemként is értelmezhetők.
Miért fontos? A szabályozás precedenst teremthet a versenyjogi beavatkozások és a felhasználói adatvédelem közötti egyensúly megteremtésében.
-
3D diffúziós autoenkóderrel több száz szív-MRI fenotípust azonosítottak, közös genetikai háttérrel
Egy a Nature Communications-ben megjelent kutatás 71 017 UK Biobank résztvevő szív-MRI felvételeiből 3D diffúziós autoenkóder segítségével több száz látens szívfenotípust vezetett le. A szerzők szerint ezek a fenotípusok reprodukálhatók, örökölhetők (h²=4–18%), és szignifikánsan kapcsolódnak kardiometabolikus jellemzőkhöz. A genomszintű asszociációs vizsgálat (GWAS) 89 szignifikáns gyakori variánst azonosított 42 lókuszon, köztük hét korábban nem ismert lókuszt. Többszörös kolokalizációs elemzéssel a kutatók összekötötték a variánsokat a köztes szív-fenotípusoktól a szívbetegség-végpontokig. Emellett két nem lektorált preprint CNN- és kvantum-autoenkóder-alapú agyi MRI-elemzést mutatott be: az előbbi 97%-os pontossággal detektál agydaganatot, az utóbbi pedig ~0,95-ös ROC-AUC értékkel azonosít anomáliákat, de mindkettő kis adathalmazon készült, és még lektorálásra vár.
Miért fontos? A felügyelet nélküli mélytanulási fenotipizálás új genetikai lókuszokat tárt fel, ami a szívbetegségek kockázatbecslését javíthatja.
-
A kínai Zhipu AI azt állítja, hogy nyílt súlyú GLM-5.2 modellje egyes kiberbiztonsági feladatokban felveszi a versenyt a Mythosszal
A kínai Zhipu AI (Z.ai) kiadta nyílt súlyú GLM-5.2 modelljét, amelyről egyes kutatók a The Verge beszámolója szerint azt állítják, hogy bizonyos sebezhetőség-keresési és kiberbiztonsági forgatókönyvekben az Anthropic Mythos modelljéhez hasonló teljesítményt nyújt. A forrás hangsúlyozza, hogy általánosabb feladatokban a GLM továbbra is elmarad az Anthropic és az OpenAI modelljeitől, ugyanakkor a kínai modellek képességbeli lemaradása jelentősen csökkent. Az amerikai kormányzat a fejlett, sebezhetőségeket felismerni képes MI-modelleket nemzetbiztonsági kockázatnak tekinti, és korlátozni igyekszik Kína hozzáférését az ilyen technológiákhoz és a betanításukhoz szükséges hardverekhez. Mivel a GLM nyílt súlyú, bárki letöltheti és futtathatja, ami rugalmasságot ad, de egyben visszaélési kockázatot is jelent, mivel a felügyelet nehezen biztosítható.
Miért fontos? A nyílt súlyú kínai modell kiberbiztonsági képességeire vonatkozó állítás új dimenziót ad az amerikai–kínai MI-verseny nemzetbiztonsági vetületének.
-
A Flexion Robotics humanoid robotja önállóan navigál irodai környezetben, szimulációban tanult készségek kombinálásával
A svájci Flexion Robotics – amelyet volt Nvidia-robotikai kutatók alapítottak – egy módosított Unitree humanoid robotot mutatott be, amely szöveges utasítás alapján önállóan hajt végre összetett irodai feladatokat: lépcsőzik, lifttel közlekedik, ajtót nyit, csomagot bont és polcra pakol. A cég állítása szerint a rendszer lényege, hogy az egyes készségeket (járás, egyensúlyozás, tárgyak kezelése) szimulációban tanítják be megerősítéses tanulással, majd egy fő AI-modell – amely emberekről készült videókból tanulja meg a cselekvések sorrendjét – valós időben kombinálja ezeket. A megközelítés a Flexion szerint hatékonyabb a szokásos teleoperált betanításnál, mert kevesebb emberi beavatkozást igényel, és ismeretlen környezetben is működik. A bemutató egyetlen videón alapul, így a rendszer megbízhatóságáról és általánosíthatóságáról egyelőre nem áll rendelkezésre független értékelés.
Miért fontos? A szimulációs készségtanulás és a hierarchikus AI-vezérlés kombinálása új irányt mutathat a humanoid robotok valós környezetben történő önálló működtetésében.
-
Az OpenAI hardveres makrópadot készít a Codex kódolóeszközhöz a Work Louder-rel együttműködve
Az OpenAI július 15-re egy fizikai eszközt jelent be, amelyet a Codex nevű, AI-alapú kódolóeszközéhez terveztek. A cég az X platformon közzétett rövid videóban egy négyzet alakú, több gombbal ellátott eszközt mutatott be, a Work Louder billentyűzetgyártóval közös partnerségben. A The Verge szerint az eszköz sziluettje a Work Louder Creator Micro 2 makrópadjára emlékeztet, amely 13 mechanikus kapcsolót, joystickot és érintésérzékelőt tartalmaz, és különböző alkalmazásokhoz rendelhető parancsikon-kiosztást tesz lehetővé. A cikkben hangsúlyozzák, hogy ez nem azonos az OpenAI és Jony Ive közös, korábban bejelentett AI-eszközprojektjével. További részletek egyelőre nem ismertek, a megjelenés két hét múlva várható.
Miért fontos? Az OpenAI első dedikált fizikai perifériája a szoftverfejlesztők munkafolyamatába integrálná a Codex AI-kódolási funkcióit.
Napi összegzők
A nap összképe
A mai hírek közös szála az, hogy az AI-ágensek egyre több feladatot képesek ellátni, de megbízhatóságuk és kontextusérzékenységük súlyos korlátokba ütközik. A GILP és ATOD kutatások konkrét módszerekkel csökkentik a hallucinációt és javítják a tanítási hatékonyságot, miközben a NormAct benchmark megmutatja, hogy a modellek a kimondatlan társadalmi szabályokat alig ismerik fel, a kódoló LLM-ek pedig a szoftverek futásidejű viselkedését nem értik. Ezt erősíti meg az emberi oldalról érkező figyelmeztetés is: ha az AI-t munkatársként kezeljük, az emberek kevesebb hibát találnak – vagyis az ágensek korlátai és az emberi túlzott bizalom együtt szorzóként hatnak a kockázatokra. Az MIT Technology Review rangsorolása éppen ezt a feszültséget szervezi keretbe, megmutatva, mely feladatoknál elegendő az automatizálás és hol marad nélkülözhetetlen az emberi felügyelet. Eközben a geopolitikai dimenzió sem halványul: a Zhipu AI nyílt súlyú modelljének kiberbiztonsági képességei az amerikai–kínai technológiai rivalizálás újabb fejezetét nyitják meg.
Témaszálak
Mi köti össze a mai híreket — a nap hírei a nagyobb témák köré rendezve.
AI-ágensek megbízhatósága és tanítása
A GILP hallucináció-csökkentő módszere, az ATOD tanítási keretrendszer, a NormAct társadalminorma-benchmark és a kódoló LLM-ek futásidejű vakságáról szóló kutatás mind ugyanarra a kérdésre válaszol más-más szögből: hogyan tehető az ágensek működése kiszámíthatóbbá. Közös tanulságuk, hogy a puszta nyelvi képesség nem elegendő – a világmodell, a kontextus és a rejtett szabályok értelmezése még fejlesztésre szorul.
Ember és AI közötti bizalmi egyensúly
A Boston University kutatása szerint az AI antropomorfizálása 18%-kal rontja a hibakeresést, az MIT Technology Review felmérése pedig az összetett üzleti kontextust igénylő feladatoknál talált bizalmi deficitet. A két eredmény együtt azt jelzi, hogy sem a vak bizalom, sem a teljes szkepticizmus nem célravezető: a feladathoz illesztett emberi felügyeleti modellekre van szükség.
Geopolitika, szabályozás és nyílt modellek kockázatai
A Zhipu AI nyílt súlyú GLM-5.2 modelljének kiberbiztonsági teljesítménye nemzetbiztonsági vitát gerjeszt, míg a Google az EU DMA-szabályozás adatvédelmi kockázataira figyelmeztet. Mindkét hír azt mutatja, hogy a technológiai képességek bővülése és a szabályozói beavatkozások között egyre nehezebb egyensúlyt tartani.
Összefüggések korábbi napokkal
Hol folytatódnak a korábbi szálak — a mai hírek a megelőző napok eseményeihez kötve.
Kínai AI-modell vs. amerikai korlátozások
Június 28-án a Trump-kormány korlátozott hozzáférést adott az Anthropic Mythos 5-höz, ma pedig a Zhipu AI nyílt súlyú GLM-5.2 modellje éppen ennek a modellnek a kiberbiztonsági képességeivel vetekszik a fejlesztők szerint – ez közvetlenül kiélezi az amerikai exportkorlátozások hatékonyságáról szóló vitát.
AI-ágensek teljesítménye valós és szimulált feladatokban
A princetoni kutatók június 29-i eredménye szerint az AI-ágensek többsége csődbe viszi a szimulált startupot; a mai GILP- és ATOD-kutatások éppen azokra a hallucináció- és tanítási problémákra kínálnak részleges megoldást, amelyek az ágensek ilyen kudarcai mögött állhatnak.
Multimodális modellek értékelési hiányosságai
Június 28-án kutatók a multimodális LLM-ek értékelési módszereinek hiányosságaira mutattak rá, a mai NormAct benchmark és a kódoló LLM-ek futásidejű értékelése pedig konkrét, új dimenziókat ad ehhez: a társadalmi normák felismerését és a futásidejű erőforrás-becslést.
Mire figyelj
- Érdemes figyelni, hogy az Európai Bizottság jövő havi döntése a Google Gemini Android-integrációjáról és az anonimizált adatmegosztásról milyen konkrét formát ölt, és a Google adatvédelmi érvei mennyire befolyásolják a végső szabályozást.
- A Zhipu AI GLM-5.2 nyílt súlyú modelljének független, harmadik fél általi kiberbiztonsági tesztjei fogják megmutatni, valóban felveszi-e a versenyt a Mythosszal, és ez várhatóan az amerikai exportkorlátozásokról szóló politikai vitát is befolyásolja.
- Az OpenAI július 15-i Codex makrópad-bemutatója tisztázhatja, hogy a vállalat mennyire komolyan lép be a dedikált AI-hardverperifériák piacára, és ez hogyan viszonyul a Jony Ive-vel közös projekthez.
- A GILP és NormAct kutatások preprint státuszúak – lektorált megjelenésük és független reprodukálásuk lesz a következő mérföldkő abban, hogy valóban beépülnek-e az ágensek fejlesztési gyakorlatába.