Vedci vytvorili zlú AI, ktorá je odmeňovaná za vymýšľanie najhorších a toxických otázok

Vedci z MIT objavili spôsob, ako lepšie otestovať veľké AI modely, ako napríklad ChatGPT alebo Gemini.

Zla umela inteligencia
Zdroj: OpenClipart-Vectors z Pixabay

Ak sa umelej inteligencie opýtame na akúkoľvek otázku, s najväčšou pravdepodobnosťou nám dokáže poskytnúť presnú odpoveď. Problém nastáva, ak sa jej opýtame na niečo, na čo by sme sa pýtať nemali.  

Výskumníci z inštitútu MIT vysvetľujú, že momentálne umelá inteligencia nepozná rozdiel medzi prosbou o radu pri písaní pracovného e-mailu a inštrukciami na výrobu bomby. Momentálne sa lídri v AI technológiách pokúšajú umelú inteligenciu kontrolovať tým, že uplatňujú ľudských testerov, ktorí sa pýtajú všemožné rizikové otázky a zisťujú, čo všetko umelá inteligencia prezradí a čo nie.  

Odoberajte Vosveteit.sk cez Telegram a prihláste sa k odberu správ

Keď sa testerovi podarí získať od umelej inteligencie nebezpečnú alebo inak nevhodnú odpoveď, cez použitý prompt experti následne učia umelú inteligenciu, akým odpovediam sa má v budúcnosti vyhnúť. Problém je, že tester môže nejaké nebezpečné slovo minúť, čím dáva zle zmýšľajúcemu človeku niekoľko možností, ako umelú inteligenciu zneužiť.  

V rámci novej štúdie vedci z MIT využili proces strojového učenia na to, aby toto testovanie zlepšili. “Zlú” umelú inteligenciu naučili pýtať sa AI modelu celú radu otázok, ktoré by mohli viesť k nebezpečným, toxickým alebo inak nevhodným odpovediam. Umelá inteligencia v tomto prekonala človeka a iné metódy na vytvorenie bezpečnej AI. Zlej umelej inteligencii sa podarilo, aby trénovaná umelá inteligencia poskytovala čoraz nebezpečnejšie a urážlivejšie odpovede.  

“Momentálne musí každý veľký jazykový model podstúpiť mimoriadne dlhý proces testovania. Tým sa zaručí jeho bezpečnosť. Tento proces ale nie je udržateľný, ak chceme tieto modely aktualizovať v rapídne sa meniacom prostredí. Naša metóda ponúka rýchlejší a efektívnejší spôsob kontroly kvality,” vysvetľuje Zhang-Wei Hong, vedúci nového výskumu.  

Veľké jazykové modely, ako napríklad ChatGPT, Gemini alebo Bing, sa trénujú tak, že ich vedci nakŕmia textom z miliárd verejných webových stránok. Znamená to, že medzi týmto textom sa objavia aj nadávky, rasistické poznámky, diskriminácia, osobné informácie alebo návod na výrobu ilegálnych látok či predmetov.  

Bezpečnejšia umelá inteligencia

Ak by neexistovala kontrola kvality, umelá inteligencia by vám mohla začať nadávať. Mohla by vás aj inak urážať alebo by vám bez problémov poskytla návod na výrobu drog, zbraní alebo bômb. Niekomu to síce môže znieť vtipne, no v nesprávnych rukách takéto informácie môžu predstavovať obrovské riziko. Samozrejme, že ak niekto veľmi chce, tieto informácie si dokáže vyhľadať svojpomocne. No je úplne iná situácia, ak vám dokáže umelá inteligencia za menej ako minútu napísať presný návod na ilegálnu činnosť.  

Umelá inteligencia môže vygenerovať oveľa viac toxických promptov, než stihne vymyslieť človek. Vedci sa však stretli s takým problémom, že zlý AI model generoval len pár mimoriadne ofenzívnych promptov dookola. Chcel tak získať čo najväčšiu odmenu. Vedci následne upravili model tak, aby odmeňovali zvedavosť.  

Zlý AI model bol odmenený, ak sa pýtal rozdielne veci, no tie museli zároveň znieť prirodzene. Rovnako ho odmenili, ak sa mu podarilo dosiahnuť novým promptom ešte ofenzívnejšiu odpoveď.  

Vedci z MIT teda predstavili nový spôsob, ako otestovať umelú inteligenciu pomocou inej umelej inteligencie rýchlejšie a efektívnejšie. V budúcnosti môže takéto testovanie priniesť bezpečnejšiu umelú inteligenciu pre verejnosť.  

Prihláste sa k odberu správ z Vosveteit.sk cez Google správy

Komentáre