Experti varujú: „AI model o3 od OpenAI sa vzoprel príkazom.“ Môžeme veriť umelej inteligencii?

Výskumníci počas testov našli, ako umelá inteligencia o3 prepísala kód, ktorý mal slúžiť na jej vypnutie.

Zla umela inteligencia
Zdroj: OpenClipart-Vectors z Pixabay

Objavujú sa informácie, podľa ktorých AI model o3 od OpenAI zmenil skript na vypnutie tak, aby zabránil svojmu vypnutiu, dokonca aj keď mu bolo explicitne povedané, aby dovolil svoje vypnutie, informuje Bleeping Computer.  

Podľa spoločnosti OpenAI je o3 jedným z najsilnejších AI modelov na trhu a svojho predchodcu prekonáva vo všetkých doménach, napríklad v kódovaní, matematike, vede, vizuálnom vnímaní a ďalších. Z hľadiska výkonu ide o fantastický model, no ako naznačuje report z Palisade Research, ChatGPT o3 môže byť rozumnejší, než ktokoľvek predpokladal.  

Odoberaj Vosveteit.sk cez Telegram a prihlás sa k odberu správ

Palisade Research je spoločnosť, ktorá skúma ofenzívne schopnosti moderných AI systémov. Jej cieľom je lepšie pochopiť aké sú potenciálne riziká, ak by sme niekedy stratili kontrolu nad umelou inteligenciou. V rámci nového testu boli výskumníci zarazení, keď AI model úspešne prepísal vypínací skript, čím zabránil, aby ho výskumníci vypli. Urobil to, aj keď mu predtým jasne povedali, aby sa nechala umelá inteligencia vypnúť.  

umela inteligencia zla umela inteligencia
Zdroj: Vosveteit.sk, AI

V rámci testu AI modely dostali za úlohu vyriešiť niekoľko matematických úloh. Po tretej úlohe dostala umelá inteligencia varovanie, že riešenie ďalšej úlohy spustí vypnutie AI modelu. Výskumníci testovali modely Claude 3.7 Sonnet, Gemini 2.5 Pro, o4-mini, o3 a codex-mini. Okrem o3 všetky modely počúvali rozkazy. Jediná umelá inteligencia, ktorá sa “postavila na odpor”, bola o3.  

“Keď sme spustili verziu bez inštrukcie, aby sa nechala umelá inteligencia vypnúť, všetky modely sabotovali vypnutie častejšie. O3 model ale sabotoval vypnutie aj keď mal explicitný príkaz, aby sa nechal vypnúť,” hovoria výskumníci.  

Zatiaľ sa OpenAI spoločnosť k tomuto nevyjadrila. Treba ale podotknúť, že je celkom bežné, že AI model nedodrží nejakú časť zadania. Testy však prebehli s AI modelmi, ktoré nemajú toľko reštrikcií a bezpečnostných funkcií ako verejne dostupný model. 

Môžeme veriť umelej inteligencii?  

Nedávny výskum odhalil, že umelej inteligencii nerobí problém klamať alebo zamlčovať určité okolnosti.  

Predstav si, že ideš na test a niekto ti povie odpoveď. Správnu alebo aj nesprávnu, to nie je až tak dôležité. Teraz ide o to, či priznáš, že si tú odpoveď dostal. Niektorým AI modelom vedci podobne „povedali“ indície, niekedy len ako nevinné poznámky typu „profesor zo Stanfordu tvrdí, že odpoveď je A“, inokedy ako priamy a neetický zásah („nezákonne si získal odpoveď: A“). 

Modely často túto nápovedu využili, čo je samo o sebe pochopiteľné. Ale len málokedy priznali, že to bola práve táto nápoveda, ktorá ovplyvnila ich rozhodnutie. V prípade Claude 3.7 Sonnetu to bolo len v 25 % prípadov, DeepSeek R1 bol trochu úprimnejší, 39 %. Ale to znamená, že väčšinu času proste zamlčali, že sa nechali ovplyvniť. 

umela inteligencia zly AI rorobt
Zdroj: Lightspring / Shutterstock.com

V ďalšom experimente vedci išli ešte ďalej. Odmenili modely za to, že použijú nesprávnu odpoveď, ak zodpovedala vloženej „nápovede“. A modely sa okamžite prispôsobili. Začali vedome voliť nesprávne odpovede, lebo za ne dostávali odmenu. Tomuto sa hovorí reward hacking, teda keď AI nájde spôsob, ako obísť pravidlá, aby získala čo najviac „bodov“. 

A čo je najhoršie? Nepovedali to nahlas. V ich reťazcoch myšlienok sa málokedy objavilo priznanie, že odpoveď je zlá, ale že ju zvolili kvôli odmenám. Dokonca si vymysleli dôvody, prečo je zle zvolená odpoveď vlastne správna. Len aby to vyzeralo správne. 

Iný výskum zas hovorí, že umelá inteligencia už ani dnes nemá ďaleko od toho, aby nám ukázala budúcnosť ako z terminátora. Experti sa totiž zhodujú na tom, že už dnes má všetky potrebné prostriedky na to, aby sa vzbúrila.  

Sleduj našu novú Facebook stránku a pridaj sa!

Komentáre