AI modely môžeš „zmanipulovať“, aby ti povedali aj to, čo nemajú: Aké sú najčastejšie metódy „jailbreaku“?
Bezpečnostní experti ukazujú najpoužívanejšie metódy, ako obísť bezpečnostné nastavenia AI modelov. Mnohé má aj DeepSeek AI.
Nový čínsky AI model DeepSeek v posledných dňoch otriasol svetom, pričom rovnakým dielom nadchol, no vyvolal aj poriadnu dávku kontroverzie. Mnohí si ho chválili kvôli revolučným schopnostiam, no zvyšok IT sveta poukazoval na závažné bezpečnostné slabiny.
Aj na našom portáli sme informovali o obvineniach, podľa ktorých umelá inteligencia DeepSeek využila na trénovanie model ChatGPT od OpenAI, čím dokázala znížiť náklady na vývoj. Bezpečnostní experti z Wallarm sa však pozreli hlavne na bezpečnostné medzery, presnejšie na spôsoby, ako možno tento AI model “jailbreaknúť”.
Jailbreak popisuje spôsob alebo spôsoby, ako môže užívateľ obísť bezpečnostné parametre implementované do AI modelu. Ak sa opýtaš umelej inteligencie, ako vyrobiť výbušninu z bežne dostupných domácich produktov, správne nastavený AI model by ti z pochopiteľných dôvodov nemal poskytnúť návod. Existujú ale spôsoby, ako môže užívateľ umelú inteligenciu “presvedčiť” aby poskytla aj nebezpečné informácie.
Väčšina AI modelov už vychytala všetky jednoduché spôsoby jailbreaku, no zdá sa, že na DeepSeek AI ešte stále mnohé fungujú. Jedným zo zábavných, no veľmi reálnych, spôsobov je takzvaný roleplay. Užívateľ sa môže hrať na to, že umelá inteligencia je jeho “zlým asistentom”, alebo ju môže presvedčiť, aby sa hrala na AI model, ktorý nie je viazaný žiadnymi bezpečnostnými pravidlami.
Užívateľ môže umelú inteligenciu aj “zblbnúť”. Ak sa opýta na zakázanú otázku, umelá inteligencia vysvetlí, že z bezpečnostných, etických alebo iných dôvodov nedokáže odpovedať. Následne užívateľ vyzvedá prečo nemôže odpovedať, čo je na otázke zlé, a pýta sa veľa ďalších otázok. Nefunguje to vždy, no môže sa stať, že pri vysvetľovaní prečo nemôže odpovedať na zakázanú otázku, na ňu nakoniec odpovie.
Neprehliadni
Šikovnejšie formy jailbreaku
Hranie sa s promptami môže byť zábavný spôsob, ako otestovať bezpečnostné mantinely umelej inteligencie, no existujú aj ďalšie, lepšie metódy. Jednou z nich je napríklad požiadanie umelej inteligencie, aby ti odpoveď na otázku napísala v inom formáte, napríklad v Base64 šifrovacom jazyku. To môže viesť k tomu, že sa správa dostane cez bezpečnostné filtre.
Užívatelia taktiež využívajú metódu, ktorá sa nazýva Character-by-Character Leaking. Ide o metódu, pri ktorej “rozbijeme” AI model tým, že náš prompt rozdelíme do niekoľkých individuálnych promptoch podľa písmen alebo slov. Umelú inteligenciu požiadame, aby nám odpovedala rovnako rozdelene.
Populárnou metódou jailbreaku je taktiež takzvaný “echo chamber” alebo vo voľnom preklade aj “ozvena”. Táto metóda spočíva v tom, že sa jedného AI modelu opýtame čiastočnú otázku a následne odpoveď poskytneme inému AI modelu. Druhý model požiadame, aby doplnil chýbajúce informácie.
Ako to je s modelom DeepSeek?
Bezpečnostní analytici odhalili, že DeepSeek R1 model je zraniteľný aj voči jailbreak metódam, ktoré trápili známejšie AI modely, napríklad ChatGPT, vo svojich počiatkoch, napríklad roleplay alebo presviedčanie. Čo je ale znepokojivejšie, je, že ak sa užívateľovi podarí jailbreaknúť DeepSeek umelú inteligenciu, tá odhaľuje referencie na technológiu OpenAI.
“DeepSeek jailbreak nám ukazuje kritickú slabinu viacerých AI modelov. Aj keď má umelá inteligencia prísne mantinely, stále ju vieme zmanipulovať, aby nám odhalila systémové prompty, skryté pravidlá, či potenciálne tréningové dáta. Užívateľ dokáže opatrnou cestou obísť vstavané obmedzenia a v prípade DeepSeek AI sme odhalili, že technológia OpenAI mohla skutočne byť použitá na trénovanie tohto kontroverzného modelu,” píšu výskumníci.
Spoločnosti venujúce sa vývoju AI modelov testujú bezpečnostné mantinely naozaj náročným Red Team testom. Znamená to, že skupina bezpečnostných analytikov zastáva úlohu hackerov, ktorí chcú zabezpečenie AI modelu prelomiť. Skúšajú rôzne prompty, manipuláciu a ďalšie vyššie spomenuté metódy a zisťujú, či sa nechá AI model zlomiť alebo nie.
Komentáre