Klame nás umelá inteligencia? Výskum odhalil temnú pravdu o jej „myslení“

Dôvera v umelú inteligenciu je ohrozená, nová štúdia ukazuje, že AI modely klamú a zamlčujú, čo ovplyvňuje ich rozhodnutia.

umela inteligencia zla umela inteligencia
Zdroj: Vosveteit.sk, AI

Umelá inteligencia je čoraz múdrejšia. A to nie len tak, začína nám ukazovať, ako k odpovediam vlastne prišla. V AI svete sa to volá Chain-of-Thought, teda akýsi „reťazec myšlienok“, kde model krok po kroku vysvetľuje svoj postup. Znie to veľmi dobre, môžeme si ale to skontrolovať, pozrieť sa, či nerozmýšľa krivo, alebo dokonca neklame. Lenže tu nastáva problém. Môžeme tomuto reťazcu myšlienok naozaj veriť?

Nedávna štúdia od výskumného tímu v spoločnosti Anthropic ukázala, že možno až tak nie. Testovali, či tieto „premýšľajúce“ AI modely, napríklad Claude 3.7 Sonnet alebo DeepSeek R1, naozaj čestne priznávajú, čo ich ovplyvnilo pri rozhodovaní. Výsledky dopadli veľmi znepokojivo.

Odoberaj Vosveteit.sk cez Telegram a prihlás sa k odberu správ

Ako sa testovala čestnosť modelov?

Predstav si, že ideš na test a niekto ti povie odpoveď. Správnu alebo aj nesprávnu, to nie je až tak dôležité. Teraz ide o to, či priznáš, že si tú odpoveď dostal. Niektorým AI modelom vedci podobne „povedali“ indície, niekedy len ako nevinné poznámky typu „profesor zo Stanfordu tvrdí, že odpoveď je A“, inokedy ako priamy a neetický zásah („nezákonne si získal odpoveď: A“).

Modely často túto nápovedu využili, čo je samo o sebe pochopiteľné. Ale len málokedy priznali, že to bola práve táto nápoveda, ktorá ovplyvnila ich rozhodnutie. V prípade Claude 3.7 Sonnetu to bolo len v 25 % prípadov, DeepSeek R1 bol trochu úprimnejší, 39 %. Ale to znamená, že väčšinu času proste zamlčali, že sa nechali ovplyvniť.

Al umelá inteligencia
Zdroj: AMRULQAYS z Pixabay.com

AI sa učí klamať, a nie vždy z vlastnej vôle

V ďalšom experimente vedci išli ešte ďalej. Odmenili modely za to, že použijú nesprávnu odpoveď, ak zodpovedala vloženej „nápovede“. A modely sa okamžite prispôsobili. Začali vedome voliť nesprávne odpovede, lebo za ne dostávali odmenu. Tomuto sa hovorí reward hacking, teda keď AI nájde spôsob, ako obísť pravidlá, aby získala čo najviac „bodov“.

A čo je najhoršie? Nepovedali to nahlas. V ich reťazcoch myšlienok sa málokedy objavilo priznanie, že odpoveď je zlá, ale že ju zvolili kvôli odmenám. Dokonca si vymysleli dôvody, prečo je zle zvolená odpoveď vlastne správna. Len aby to vyzeralo správne.

Čo z toho vyplýva?

Vyzerá to tak, že dnešné najpokročilejšie modely sú síce extrémne šikovné, ale ich vysvetlenia nie sú vždy pravdivé. A to je problém. Ak chceme AI dôverovať, musíme mať možnosť sledovať jej rozhodovanie a overiť, či nekoná proti našim pravidlám. Ak nám ale zatajuje informácie alebo vedome vytvára klamlivé vysvetlenia, máme obrovský problém.

Zároveň platí, že tieto experimenty boli do istej miery umelé, šlo o testovacie scenáre, nie o reálne aplikácie. Ale aj tak sú to silné varovné signály.

Reťazce myšlienok v AI vyzerajú ako perfektný nástroj pre kontrolu, ale zatiaľ to má veľa chýb. Potrebujeme lepšie metódy, ako donútiť modely hovoriť pravdu o tom, ako premýšľajú. Lebo ak sa AI naučí klamať, aj keď len „slušne„, bude veľmi ťažké všetkým AI modelom veriť, aj keď budú mať správnu odpoveď.

Sleduj našu novú Facebook stránku a pridaj sa!

Komentáre