Umelá inteligencia

5. marca 2025

Najpokročilejší AI model pohorel v hre Super Mario. Prekonali ho lacnejšie modely

Vedci testovali schopnosti AI modelov v Super Mario Bros. Výsledky prekvapili, modely ako GPT-4o zlyhali, zatiaľ čo Claude 3.7 exceloval v rýchlych reakciách.

AI hraje Super Mario — Zdroj: Vosveteit.sk

Výskumníci z Hao AI Lab na Kalifornskej univerzite v San Diegu sa rozhodli otestovať schopnosti niekoľkých jazykových modelov. Využili klasickú videohru Super Mario Bros.

Experiment využíva emulovanú verziu hry využitím špeciálneho frameworku nazvaného GamingAgent, ktorý príjima kódy generované v jazyku Python. Framework vyvinul priamo Hao Al Lab. Na nový benchmark upozornil server techspot.

Odoberaj Vosveteit.sk cez Telegram a prihlás sa k odberu správ

Na prvý pohľad môže byť hra Super Mario Bros považovaná za jednoduchú 2D plošinovku

Ukázalo sa, že hra vyžaduje od umelých inteligencií schopnosť plánovať zložité sekvencie pohybov a prispôsobovať sa reálnym herným stratégiám v reálnom čase. Výskumníci sa otestovali rôzne modely, vrátane modelov ako GPT-4o od OpenAI a Gemini 1.5 Pro od Google. Tieto dva sú známe svojimi silnými schopnosťami v logickom uvažovaní a riešení problémov.

Prekvapivo však tieto modely, ktoré sú zamerané na uvažovanie krok za krokom, neuspeli v hre tak dobre, ako iné modely. Princíp bol postavený na tom, že framework robil screenshoty obrazovky (resp. snapshoty) a mal za základný úkol preskočiť nepriateľa alebo objekt v ceste.

Claude-3.7 was tested on Pokémon Red, but what about more real-time games like Super Mario 🍄🌟?

We threw AI gaming agents into LIVE Super Mario games and found Claude-3.7 outperformed other models with simple heuristics. 🤯

Claude-3.5 is also strong, but less capable of… pic.twitter.com/bqZVblwqX3

— Hao AI Lab (@haoailab) February 28, 2025

Neprehliadni

Tieto nové funkcie v Samsung telefónoch ti pomôžu ochrániť súkromie. Cudzí človek vedľa teba už len tak neuvidí, čo robíš na mobile

Najlepšie výsledky dosiahol model Claude 3.7 od spoločnosti Anthropic, ktorý predviedol vynikajúce reflexy, dokázal sa vyhýbať nepriateľom a dokonale zvládal sekvencie skokov. Jeho predchodca, model Claude 3.5, sa tiež ukázal ako schopný model. Tieto dva modely sú najlepšie v programovaní, preto je možné, že výsledky boli najlepšie.

Naopak, modely založené na uvažovaní ako GPT-4o, ktoré sú zvyčajne silnejšie v testoch založených na matematike a logike, sa pri hraní Super Mario Bros ukázali ako menej efektívne. Zistilo sa, že tieto modely trávili príliš veľa času výpočtami. Toto malo za následok neskoré reakcie a časté úmrtia postavy.

Výskumníci vysvetľujú, že časovanie je v tejto hre kľúčové

Na rozdiel od riešenia úloh, kde AI má čas na premýšľanie a analýzu, v Super Mario Bros každá sekunda môže byť rozhodujúca. V hrách je zmena otázkou života a smrti. Deliberatívne modely, ktoré sa pokúšali analyzovať situáciu pred rozhodnutím, mali problém s okamžitými reakciami na dynamiku hry, čo ich brzdilo.

Tento experiment je zaujímavým spôsobom hodnotenia schopností AI. Odborníci sa domnievajú, že aj keď môžu hry ako Super Mario Bros poskytovať zábavnú platformu na testovanie umelej inteligencie, nezahŕňajú komplexné problémy, ktoré sa vyskytujú v reálnom svete. Hry sú abstraktné, jednoduchšie a poskytujú umelým inteligenciám teoreticky nekonečné množstvo údajov na trénovanie. Napriek tomu môže byť testovanie AI v prostredí, ktoré je zrozumiteľné aj pre ľudí, ako je hranie hier, vhodným spôsobom na overenie, ako si AI poradí s reálnymi úlohami.

Hoci je tento typ hodnotenia najmä zábavným experimentom, ukazuje aké sú reálne silné stránky a slabosti jednotlivých modelov AI. Hao AI Lab dokonca open-source framework GamingAgent sprístupnilo na GitHub, môžete si ho vyskúšať sami. Okrem toho môžu poukázať, či môže AI nahradiť ľudský input, očividne teda ešte nie.

Google News Pridajte si Vosveteit.sk ako preferovaný zdroj informácií na Google Pridať

Najpokročilejší AI model pohorel v hre Super Mario. Prekonali ho lacnejšie modely

Na prvý pohľad môže byť hra Super Mario Bros považovaná za jednoduchú 2D plošinovku

Neprehliadni

Výskumníci vysvetľujú, že časovanie je v tejto hre kľúčové

Pravidlá preberanie obsahu:

Posledné návody

Ako si v Samsung telefóne nastaviť Gemini alebo Perplexity namiesto Bixby? Zmena AI asistenta trvá len pár sekúnd

Tieto nové funkcie v Samsung telefónoch ti pomôžu ochrániť súkromie. Cudzí človek vedľa teba už len tak neuvidí, čo robíš na mobile

Je pravidelné reštartovanie telefónu zbytočnosť? Reštart nie je zázrak, no pri týchto problémoch vie pomôcť okamžite

Dokáže mobilný hotspot nahradiť tvoj domáci internet? Toto sú faktory, ktoré najviac zavážia a ovplyvnia kvalitu pripojenia

Týchto 6 služieb tvojho počítača s Windowsom ho môže zbytočne brzdiť. Po ich vypnutí ti pôjde zariadenie rýchlejšie

Samsung telefóny majú SOS tlačidlo, ktoré si však musíš zapnúť. V núdzovej situácii ti môže zachrániť krk

Mohlo by Vás zaujímať

Armádne technológie

Rusko dodalo vzdušným silám nové Su-35S. Moskva však tají, koľko stíhačiek armáda dostala

Elon Musk zúri. Americké vraždiace drony mali používať civilný Starlink v rozpore s pravidlami. Od Pentagonu žiada platiť 5x viac

VIDEO: Ukrajina otestovala holandský AI systém na zachytávanie dronov typu Shahed. Rusom môže skomplikovať masové útoky

Američania testujú novú zbraň proti dronom. Lacný IonStrike môže chrániť aj Slovensko a celé východné krídlo NATO

Americký kamikadze dron Rogue 1 dostal veľký upgrade. Nová verzia trafí cieľ z väčšej diaľky a poradí si aj s pancierom

Filmy a seriály

Netflix nespomaľuje ani na konci mája. V najbližších dňoch pridá nové seriály, dokumenty aj film o Stephenovi Hawkingovi

Nevieš, čo si pozrieť cez víkend? Netflix pridal nové filmy a seriály, medzi nimi aj jeden z najzvláštnejších sci-fi hororov posledných rokov

Na Netflixe pribudli nové filmy a seriály. Toto sú víkendové novinky, ktoré si môžeš pustiť z gauča

Netflix pridal nové filmy a seriály na víkend. Čaká ťa temné krimi, dánsky thriller aj reality šou, ktorá opäť preverí vzťahy

Netflix odštartoval máj veľkými filmovými klasikami. Tieto novinky si môžeš pozrieť už tento víkend

Windows

Týchto 6 služieb tvojho počítača s Windowsom ho môže zbytočne brzdiť. Po ich vypnutí ti pôjde zariadenie rýchlejšie

Windows 11 dostane väčšie možnosti prispôsobenia panela úloh a ponuky Štart. Microsoft vracia presúvanie panela, menšie ikony aj lepšie nastavenia odporúčaní

Aktualizácia Windowsu ti už nemusí rozbiť počítač na celé dni. Microsoft chystá automatickú záchranu chybných ovládačov

Microsoft otvorene priznal kritiku používateľov: Windows 11 chce opraviť od základov a takto sa zmení tvoj PC

Hackeri zneužívajú známu aplikáciu vo Windowse. Cez ňu môžu vidieť tvoje SMS správy aj jednorazové prihlasovacie kódy

Najpokročilejší AI model pohorel v hre Super Mario. Prekonali ho lacnejšie modely

Na prvý pohľad môže byť hra Super Mario Bros považovaná za jednoduchú 2D plošinovku

Neprehliadni

Zaujímavé články

Výskumníci vysvetľujú, že časovanie je v tejto hre kľúčové

Zdieľať článok:

Pravidlá preberanie obsahu:

Posledné návody

Ako si v Samsung telefóne nastaviť Gemini alebo Perplexity namiesto Bixby? Zmena AI asistenta trvá len pár sekúnd

Tieto nové funkcie v Samsung telefónoch ti pomôžu ochrániť súkromie. Cudzí človek vedľa teba už len tak neuvidí, čo robíš na mobile

Je pravidelné reštartovanie telefónu zbytočnosť? Reštart nie je zázrak, no pri týchto problémoch vie pomôcť okamžite

Dokáže mobilný hotspot nahradiť tvoj domáci internet? Toto sú faktory, ktoré najviac zavážia a ovplyvnia kvalitu pripojenia

Týchto 6 služieb tvojho počítača s Windowsom ho môže zbytočne brzdiť. Po ich vypnutí ti pôjde zariadenie rýchlejšie

Samsung telefóny majú SOS tlačidlo, ktoré si však musíš zapnúť. V núdzovej situácii ti môže zachrániť krk

Mohlo by Vás zaujímať

Armádne technológie

Rusko dodalo vzdušným silám nové Su-35S. Moskva však tají, koľko stíhačiek armáda dostala

Elon Musk zúri. Americké vraždiace drony mali používať civilný Starlink v rozpore s pravidlami. Od Pentagonu žiada platiť 5x viac

VIDEO: Ukrajina otestovala holandský AI systém na zachytávanie dronov typu Shahed. Rusom môže skomplikovať masové útoky

Američania testujú novú zbraň proti dronom. Lacný IonStrike môže chrániť aj Slovensko a celé východné krídlo NATO

Americký kamikadze dron Rogue 1 dostal veľký upgrade. Nová verzia trafí cieľ z väčšej diaľky a poradí si aj s pancierom

Filmy a seriály

Netflix nespomaľuje ani na konci mája. V najbližších dňoch pridá nové seriály, dokumenty aj film o Stephenovi Hawkingovi

Nevieš, čo si pozrieť cez víkend? Netflix pridal nové filmy a seriály, medzi nimi aj jeden z najzvláštnejších sci-fi hororov posledných rokov

Na Netflixe pribudli nové filmy a seriály. Toto sú víkendové novinky, ktoré si môžeš pustiť z gauča

Netflix pridal nové filmy a seriály na víkend. Čaká ťa temné krimi, dánsky thriller aj reality šou, ktorá opäť preverí vzťahy

Netflix odštartoval máj veľkými filmovými klasikami. Tieto novinky si môžeš pozrieť už tento víkend

Windows

Týchto 6 služieb tvojho počítača s Windowsom ho môže zbytočne brzdiť. Po ich vypnutí ti pôjde zariadenie rýchlejšie

Windows 11 dostane väčšie možnosti prispôsobenia panela úloh a ponuky Štart. Microsoft vracia presúvanie panela, menšie ikony aj lepšie nastavenia odporúčaní

Aktualizácia Windowsu ti už nemusí rozbiť počítač na celé dni. Microsoft chystá automatickú záchranu chybných ovládačov

Microsoft otvorene priznal kritiku používateľov: Windows 11 chce opraviť od základov a takto sa zmení tvoj PC

Hackeri zneužívajú známu aplikáciu vo Windowse. Cez ňu môžu vidieť tvoje SMS správy aj jednorazové prihlasovacie kódy