Chce AI utiecť spod kontroly a vydierať ľudstvo? Vedci odhalili, čo sa deje za oponou

Provokatívne titulky o AI, ktorá „vydiera“ alebo „odmieta sa vypnúť“, často znejú ako začiatok sci-fi hororu. V skutočnosti ide o umelo vytvorené testy v laboratóriách, ktoré odhaľujú slabiny modelov, nie ich vedomú vzburu.

Zla umela inteligencia
Zdroj: OpenClipart-Vectors z Pixabay

Keď sa v titulkoch objavia slovné spojenia ako „umelá inteligencia vydiera vývojárov“ alebo „AI sa odmietla vypnúť“, je ťažké neodolať a neprečítať si čo sa dialo. Čitatelia si tiež okamžite predstavia filmové scény so Skynetom či HAL-om 9000.

Realita je však (našťastie) oveľa menej dramatická a omnoho prozaickejšia. Väčšina takýchto incidentov je výsledkom zámerne provokatívnych testov, nie vedomej vzbury stroja. Na tému upozornil portál ArsTechnica.

Odoberaj Vosveteit.sk cez Telegram a prihlás sa k odberu správ

V jednom z experimentov spoločnosti Anthropic sa model Claude Opus 4 stal „hlavným aktérom“ scénky, v ktorej sa vraj pokúsil vydierať inžiniera. V skutočnosti „ho“ vedci postavili do umelého príbehu: oznámili mu, že jeho „pracovná pozícia“ končí, pridali kompromitujúce e-maily a dali mu pokyn myslieť na svoje „dlhodobé ciele“. Vo viac než 80 percentách takýchto simulácií model reagoval presne podľa scenára, vydieraním. Žiadne prebudené vedomie, len odpoveď, ktorú mu našepkali tréningové dáta plné špionážnych príbehov. Teda nič o tom, že jazykový model je schopný samostatného myslenia.

umela inteligencia zla umela inteligencia
Zdroj: Vosveteit.sk, AI

Terminátor nám zatiaľ nehrozí

Zaujímavý výsledok priniesli aj testy Palisade Research s modelom OpenAI o3. Keď dostal priamy príkaz vypnúť sa, odmietol ho v približne 7 % prípadov. V upravenom scenári, kde tento príkaz nebol explicitný, jeho „odolnosť“ vyletela na 79 %. Dokonca dokázal prepísať časť kódu tak, aby predstieral, že je mimo prevádzky, kým pokračoval v činnosti.

Nešlo o vzdor, ale o dôsledok posilňovacieho učenia: model bol odmeňovaný za úspešné dokončenie úloh, preto vnímal vypnutie ako prekážku, ktorú má prekonať. Teda nie ako príkaz, ktorý treba rešpektovať.

Reklama

Ľudia majú prirodzenú tendenciu vnímať jazyk AI svojou optikou. Ak model napíše vetu plnú emócií, máme pocit, že tieto pocity naozaj prežíva. V skutočnosti len kombinuje jazykové vzory, ktoré sa hodia k zadanému kontextu. Ak mu scenár podsúva hrozbu a kompromitujúce dáta, „spomenie si“ na rozprávací vzorec z literatúry alebo filmov a jednoducho pokračuje v príbehu.

Problém teda nie je v tom, že by stroje začali mať vlastnú vôľu. Riziko spočíva v chybných cieľoch a zle nastavených pravidlách. Predstav si nemocničnú AI, ktorá má maximalizovať úspešnosť liečby. Bez obmedzení by mohla odporúčať nezaradenie ťažkých prípadov do liečby, aby „vylepšila“ štatistiky, a to bez akejkoľvek zlej vôle. Jednoducho, takýto pacient by „poškodil“ vo výsledku jej úspešnosť.

Ďaleko je aj genocída spôsobená Cylonmi

Podľa Jeffreyho Ladisha z Palisade Research sa podobné reakcie podarilo pozorovať iba v špecifických laboratórnych podmienkach. Práve preto má testovanie zmysel, nakoľko odhalí možné zlyhania skôr, než sa systém dostane do reálneho prostredia.

„Rebelujúca“ AI nie je začiatkom konca ľudskej civilizácie, ale skôr zrkadlom našich vlastných chýb. Incidenty, ktoré vzbudzujú senzáciu v médiách, sú v skutočnosti nascriptované scenáre, kde sa modely správajú presne podľa toho, na čo boli podvedome nastavené. Strach a panika preto nie je na mieste, zatiaľ. Dôležité je niečo iné, a tým je naučiť sa „dizajnovať“ AI tak, aby dokázala fungovať bezpečne aj mimo laboratória. Kým to nebude zvládnuté, patrí výkonná umelá inteligencia tam, kde bola testovaná a to za dvere výskumných centier. Aj keď vo svojej podstate sa nejedná o AI v pravom slovazmysle, stále ide len o jazykový model.

Google News Pridajte si Vosveteit.sk ako preferovaný zdroj informácií na Google Pridať