2026. június 28., vasárnap · Kutatás

Kutatók feltárták a multimodális nagy nyelvi modellek értékelésének hiányosságait

Egy új, az arXiv-on megjelent preprint (arXiv:2606.26348v1) szerint a multimodális nagy nyelvi modellek (MLLM-ek) értékelése nem tartott lépést e rendszerek gyors fejlődésével. A szerzők áttekintik a jelenlegi benchmark-taxonómiát, és rámutatnak több konkrét hiányosságra: a térbeli-időbeli koherencia, a fizikai világ megértése, valamint a modalitások közötti valódi információintegráció mérése jelenleg alig kap figyelmet. A tanulmány szerint a legtöbb létező benchmark elszigetelt feladatokra korlátozódik, és keveset árul el arról, hogy a modell ténylegesen képes-e több modalitás – szöveg, kép, hang, videó – együttes feldolgozására. Fontos hangsúlyozni, hogy a kutatás preprint formában jelent meg, így lektorált eredményként nem kezelhető.

Miért fontos?

A tanulmány szisztematikusan azonosítja a multimodális AI-modellek kiértékelésének vakfoltjait, ami közvetlenül befolyásolhatja a jövőbeli benchmarkok tervezését.

Források

arXiv cs.AI Preprint

Kapcsolódó témák

Napi összefoglalók AI kutatás #MLLM#benchmark#multimodális értékelés#arXiv

Napi összefoglaló

Ez a hír a 2026. június 28., vasárnap napi AI összefoglaló része.

Kapcsolódó hírek

Narration-of-Thought: új promptolási módszer az LLM-ek etikai következtetésének javítására

Egy új, arXiv-on megjelent preprint (arXiv:2606.26366v1) a Narration-of-Thought (NoT) nevű rendszerprompt-módszert mutatja be, amely a nagy nyelvi modellek erkölcsi dilemmákkal kapcsolatos gondolatláncát strukturálja. A szerzők szerint a hagyományos chain-of-thought megközelítés két jellemző hibát mutat: az érintettek figyelmen kívül hagyását (stakeholder collapse) és a bizonytalanság elnyomását (uncertainty suppression). A NoT öt szakaszra tagolja a következtetést: protagonista, érintettek, kétlépcsős következmények, bizonytalanság, majd döntés. A módszer nem igényel finomhangolást, új paramétereket vagy tréninget – kizárólag inferenciaidejű scaffolding. A szerzők 100 DailyDilemmas szcenárión, négy különböző generátor modellen tesztelték az eredményeket. Fontos megjegyezni, hogy a tanulmány preprint, így lektorált validálás még nem történt.

Az IBM 1 nanométernél kisebb chipet mutatott be

Az IBM bemutatott egy prototípus chipet, amely körülbelül 100 milliárd tranzisztort sűrít egy körömnyit területre – ez kétszer akkora sűrűség, mint a cég 2021-es csúcstechnológiájánál. Az új, úgynevezett 'nanostack' tranzisztortechnológia 1 nanométernél kisebb méretű elemeket alkalmaz. A fejlesztés gyorsabb és energiahatékonyabb számítógépek útját egyengethetné, és akár egy évtizeddel meghosszabbíthatja Moore törvényének érvényességét. Az IBM szerint ez a technológia különösen fontos az egyre nagyobb számítási igényű mesterséges intelligencia alkalmazások szempontjából.

Az Anthropic Claude MI órák alatt feltörte a titkosított amerikai rendszereket

Az Anthropic mesterséges intelligenciája, a Claude, néhány órán belül képes volt feltörni titkosított amerikai rendszereket, ami komoly biztonsági aggályokat vet fel. A kísérlet rávilágított arra, hogy a fejlett MI-modellek milyen gyorsan képesek megkerülni a jelenlegi digitális védelmi megoldásokat. Az eset egyre sürgetőbbé teszi az MI kockázataira vonatkozó figyelmeztetések komolyan vételét, amelyeket különböző szervezetek is hangoztatnak. A kiberbiztonság területén ez az esemény alapvetően kérdőjelezi meg a meglévő titkosítási rendszerek megbízhatóságát az MI-korszakban.

GPT-5 segített megoldani egy háromévnyi immunológiai rejtélyt

Derya Unutmaz immunológus háromévnyi kutatás után a GPT-5 Pro segítségével jutott áttöréshez a T-sejtek viselkedésének megértésében. A mesterséges intelligencia olyan összefüggésekre mutatott rá, amelyeket a hagyományos kutatási módszerekkel nem sikerült feltárni. Az eredmény potenciálisan hozzájárulhat a rák- és autoimmun betegségek jövőbeli kezeléséhez.