Najpokročilejší AI model pohorel v hre Super Mario. Prekonali ho lacnejšie modely

Vedci testovali schopnosti AI modelov v Super Mario Bros. Výsledky prekvapili, modely ako GPT-4o zlyhali, zatiaľ čo Claude 3.7 exceloval v rýchlych reakciách.

AI hraje Super Mario
Zdroj: Vosveteit.sk

Výskumníci z Hao AI Lab na Kalifornskej univerzite v San Diegu sa rozhodli otestovať schopnosti niekoľkých jazykových modelov. Využili klasickú videohru Super Mario Bros.

Experiment využíva emulovanú verziu hry využitím špeciálneho frameworku nazvaného GamingAgent, ktorý príjima kódy generované v jazyku Python. Framework vyvinul priamo Hao Al Lab. Na nový benchmark upozornil server techspot.

Odoberaj Vosveteit.sk cez Telegram a prihlás sa k odberu správ

Na prvý pohľad môže byť hra Super Mario Bros považovaná za jednoduchú 2D plošinovku

Ukázalo sa, že hra vyžaduje od umelých inteligencií schopnosť plánovať zložité sekvencie pohybov a prispôsobovať sa reálnym herným stratégiám v reálnom čase. Výskumníci sa otestovali rôzne modely, vrátane modelov ako GPT-4o od OpenAI a Gemini 1.5 Pro od Google. Tieto dva sú známe svojimi silnými schopnosťami v logickom uvažovaní a riešení problémov.

Prekvapivo však tieto modely, ktoré sú zamerané na uvažovanie krok za krokom, neuspeli v hre tak dobre, ako iné modely. Princíp bol postavený na tom, že framework robil screenshoty obrazovky (resp. snapshoty) a mal za základný úkol preskočiť nepriateľa alebo objekt v ceste.

Reklama

Najlepšie výsledky dosiahol model Claude 3.7 od spoločnosti Anthropic, ktorý predviedol vynikajúce reflexy, dokázal sa vyhýbať nepriateľom a dokonale zvládal sekvencie skokov. Jeho predchodca, model Claude 3.5, sa tiež ukázal ako schopný model. Tieto dva modely sú najlepšie v programovaní, preto je možné, že výsledky boli najlepšie.

Naopak, modely založené na uvažovaní ako GPT-4o, ktoré sú zvyčajne silnejšie v testoch založených na matematike a logike, sa pri hraní Super Mario Bros ukázali ako menej efektívne. Zistilo sa, že tieto modely trávili príliš veľa času výpočtami. Toto malo za následok neskoré reakcie a časté úmrtia postavy.

Výskumníci vysvetľujú, že časovanie je v tejto hre kľúčové

Na rozdiel od riešenia úloh, kde AI má čas na premýšľanie a analýzu, v Super Mario Bros každá sekunda môže byť rozhodujúca. V hrách je zmena otázkou života a smrti. Deliberatívne modely, ktoré sa pokúšali analyzovať situáciu pred rozhodnutím, mali problém s okamžitými reakciami na dynamiku hry, čo ich brzdilo.

Tento experiment je zaujímavým spôsobom hodnotenia schopností AI. Odborníci sa domnievajú, že aj keď môžu hry ako Super Mario Bros poskytovať zábavnú platformu na testovanie umelej inteligencie, nezahŕňajú komplexné problémy, ktoré sa vyskytujú v reálnom svete. Hry sú abstraktné, jednoduchšie a poskytujú umelým inteligenciám teoreticky nekonečné množstvo údajov na trénovanie. Napriek tomu môže byť testovanie AI v prostredí, ktoré je zrozumiteľné aj pre ľudí, ako je hranie hier, vhodným spôsobom na overenie, ako si AI poradí s reálnymi úlohami.

Hoci je tento typ hodnotenia najmä zábavným experimentom, ukazuje aké sú reálne silné stránky a slabosti jednotlivých modelov AI. Hao AI Lab dokonca open-source framework GamingAgent sprístupnilo na GitHub, môžete si ho vyskúšať sami. Okrem toho môžu poukázať, či môže AI nahradiť ľudský input, očividne teda ešte nie.

Google News Pridajte si Vosveteit.sk ako preferovaný zdroj informácií na Google Pridať