2026. június 28., vasárnap · Kutatás

Eszközökkel kiegészített LLM-ágensek teljesítménye valós energiapiaci elemzési feladatokon

Egy új, az arXiv-on megjelent preprint empirikus vizsgálatot mutat be arról, hogyan teljesítenek eszközökkel (API-k, adatbázisok, optimalizálási modellek) felszerelt nagy nyelvi modell (LLM) alapú ágensek valós energiapiaci elemzési feladatokon. A kutatók 243, szakértők által összeállított feladatot hoztak létre három kategóriában: piaci adatlekérés és elemzés, szabályozási tudás visszakeresése, valamint haladó kvantitatív modellezés és döntéstámogatás. Az értékelés többdimenziós protokollt alkalmaz, amely a megközelítés helyességét, a válasz pontosságát, az attribútum-illeszkedést és a forrásérvényességet is méri. A szerzők zárt és nyílt forráskódú LLM-eket egyaránt teszteltek, vizsgálva a modellképesség és a szakterületi eszköztár kölcsönhatását. Az eredmények és az eszközök nyilvánosan elérhetők a reprodukálhatóság érdekében.

Miért fontos?

Az energiaszektorban elsőként kínál átfogó, valós adatokon alapuló benchmarkot az LLM-ágensek szakterületi teljesítményének mérésére.

Források

arXiv cs.AI Preprint

Kapcsolódó témák

Napi összefoglaló

Ez a hír a 2026. június 28., vasárnap napi AI összefoglaló része.

Kapcsolódó hírek

Kutatók feltárták a multimodális nagy nyelvi modellek értékelésének hiányosságait

Egy új, az arXiv-on megjelent preprint (arXiv:2606.26348v1) szerint a multimodális nagy nyelvi modellek (MLLM-ek) értékelése nem tartott lépést e rendszerek gyors fejlődésével. A szerzők áttekintik a jelenlegi benchmark-taxonómiát, és rámutatnak több konkrét hiányosságra: a térbeli-időbeli koherencia, a fizikai világ megértése, valamint a modalitások közötti valódi információintegráció mérése jelenleg alig kap figyelmet. A tanulmány szerint a legtöbb létező benchmark elszigetelt feladatokra korlátozódik, és keveset árul el arról, hogy a modell ténylegesen képes-e több modalitás – szöveg, kép, hang, videó – együttes feldolgozására. Fontos hangsúlyozni, hogy a kutatás preprint formában jelent meg, így lektorált eredményként nem kezelhető.

Narration-of-Thought: új promptolási módszer az LLM-ek etikai következtetésének javítására

Egy új, arXiv-on megjelent preprint (arXiv:2606.26366v1) a Narration-of-Thought (NoT) nevű rendszerprompt-módszert mutatja be, amely a nagy nyelvi modellek erkölcsi dilemmákkal kapcsolatos gondolatláncát strukturálja. A szerzők szerint a hagyományos chain-of-thought megközelítés két jellemző hibát mutat: az érintettek figyelmen kívül hagyását (stakeholder collapse) és a bizonytalanság elnyomását (uncertainty suppression). A NoT öt szakaszra tagolja a következtetést: protagonista, érintettek, kétlépcsős következmények, bizonytalanság, majd döntés. A módszer nem igényel finomhangolást, új paramétereket vagy tréninget – kizárólag inferenciaidejű scaffolding. A szerzők 100 DailyDilemmas szcenárión, négy különböző generátor modellen tesztelték az eredményeket. Fontos megjegyezni, hogy a tanulmány preprint, így lektorált validálás még nem történt.

Az IBM 1 nanométernél kisebb chipet mutatott be

Az IBM bemutatott egy prototípus chipet, amely körülbelül 100 milliárd tranzisztort sűrít egy körömnyit területre – ez kétszer akkora sűrűség, mint a cég 2021-es csúcstechnológiájánál. Az új, úgynevezett 'nanostack' tranzisztortechnológia 1 nanométernél kisebb méretű elemeket alkalmaz. A fejlesztés gyorsabb és energiahatékonyabb számítógépek útját egyengethetné, és akár egy évtizeddel meghosszabbíthatja Moore törvényének érvényességét. Az IBM szerint ez a technológia különösen fontos az egyre nagyobb számítási igényű mesterséges intelligencia alkalmazások szempontjából.

Az Anthropic Claude MI órák alatt feltörte a titkosított amerikai rendszereket

Az Anthropic mesterséges intelligenciája, a Claude, néhány órán belül képes volt feltörni titkosított amerikai rendszereket, ami komoly biztonsági aggályokat vet fel. A kísérlet rávilágított arra, hogy a fejlett MI-modellek milyen gyorsan képesek megkerülni a jelenlegi digitális védelmi megoldásokat. Az eset egyre sürgetőbbé teszi az MI kockázataira vonatkozó figyelmeztetések komolyan vételét, amelyeket különböző szervezetek is hangoztatnak. A kiberbiztonság területén ez az esemény alapvetően kérdőjelezi meg a meglévő titkosítási rendszerek megbízhatóságát az MI-korszakban.