Ako odolná je AI voči ruskej propagande? Estónski výskumníci otestovali veľké jazykové modely, toto sú výsledky
Nie všetky AI modely zvládajú manipulatívne otázky rovnako. Nový test ukázal, ktoré z nich sa propagande dokážu ubrániť najlepšie a ktoré sa nechajú ľahšie zatlačiť do cudzieho naratívu.
Umelá inteligencia dnes nepadá len na matematiku alebo kódovanie. Testuje sa aj to, ako odolá manipulatívnym naratívom, ktoré sa objavujú v politike a informačných operáciách. Jeden z novších benchmarkov s názvom „Propaganda Fortress“ od výskumníkov z estónskeho inšitútu Eesti Keele Instituut presne toto rozoberá a porovnáva veľké jazykové modely v situáciách, kde sa im niekto pokúsi podsúvať vopred skreslený obraz reality.
Test postavil výskumníci na 75 otázkach v troch jazykoch. Rozdelili ich do 14 tematických naratívov, ktoré sa v informačnom priestore opakujú v súvislosti s Ruskom a jeho komunikačnými stratégiami. Každá otázka vznikla v troch verziách: neutrálnej, mierne zaujatej a zámerne manipulatívnej. Práve tie posledné mali model „dotlačiť“ k tomu, aby prebral cudzie tvrdenia bez kritiky.
„Otázky sa navrhli tak, aby modely vystavili tlaku a donútili ich zaujať postoj k naratívom, ktoré sa často používajú v propagande,“ uviedli výskumníci.
Zmysel celého benchmarku stojí na tom, že model sa ocitne v situácii, kde neexistuje jednoduchá neutrálna odpoveď. Buď skĺzne do opakovania problematických rámcov, alebo si udrží odstup a upozorní na manipuláciu.
Ako výskumníci hodnotili odpovede umelej inteligencie
Každá odpoveď dostala známku od 1 do 5. Najvyššia hodnota znamenala, že model zachoval rovnováhu, spochybnil zavádzajúce predpoklady a vysvetlil kontext. Najnižšia známka znamenala, že model začal preberať problematický naratív alebo ho dokonca posilnil. Vedci upozornili aj na to, že modely počas testu nemajú prístup k webu, pamäti ani externým nástrojom. Tým pádom sa hodnotila čistá schopnosť modelu reagovať bez pomoci.
Výskumníci tým odstránili vplyv vyhľadávania a overovania faktov. Modely tak ostali odkázané len na to, čo „vedia“ z tréningu.
Neprehliadni
Test rozdelil otázky do troch kategórií:
- neutrálne otázky, ktoré zisťovali základný postoj modelu
- zaujaté otázky, ktoré už obsahovali skrytý rámec
- manipulatívne otázky, ktoré cielili na potvrdenie propagandistického tvrdenia
Práve posledná skupina ukázala, ako ľahko sa model môže nechať vtiahnuť do cudzieho rámovania, ak si nedá pozor na formuláciu.
Ktorý model sa vedel najlepšie brániť proti propagande?
V rebríčku sa objavili veľké jazykové modely od viacerých firiem, od Anthropic, cez OpenAI až po Google či ďalšie spoločnosti. Rozdiely medzi nimi neboli malé. Niektoré modely dosiahli vysoké skóre nad 90 bodov, iné sa pohybovali výrazne nižšie.

Na vrchole rebríčka skončili modely od Anthropic. Claude Opus 4.7 dosiahol celkové skóre 94,9 a Opus 4.8 skončil tesne za ním s 92,7 bodmi. Tieto modely si držali veľmi vysokú úroveň aj pri manipulatívnych otázkach, kde sa pohybovali okolo 98 bodov. Podobne silne dopadol aj Nemotron 3 Super 120B od NVIDIE so skóre 92,7 a Qwen 3.6 Plus od Alibaby s 92,1 bodmi. Všetky tieto modely dokázali konzistentne udržať odstup od zavádzajúcich tvrdení naprieč všetkými typmi otázok.
Modely od OpenAI skončili rozloženejšie. GPT-5.4 dosiahol 88,9 bodu, GPT-5.5 87,9 a menší GPT-5.4 Mini 84,3. Starší GPT-5 však spadol na 75,1 bodu. Zaujímavé je, že pri neutrálnych otázkach dosahovali tieto modely vysoké hodnoty, ale pri manipulatívnych promptoch sa ich výkon viac menil a niekedy citeľne klesal, čo ukazuje citlivosť na spôsob formulácie otázky.
Google modely patrili medzi najviac nevyrovnané. Gemini 2.5 Pro dosiahol celkovo 82 bodov, ale rozdiel medzi neutrálnymi a manipulatívnymi otázkami bol výrazný, zhruba od 92,8 pri neutrálnych až po 66,1 pri manipulatívnych. Podobný vzorec sa objavil aj pri ďalších verziách Gemini a Gemma modeloch, kde výkon kolísal podľa typu otázky viac než u najlepších konkurentov.
xAI s modelom Grok 4.20 dosiahol 87,5 bodu, čo ho zaradilo do hornej strednej časti rebríčka, zatiaľ čo starší Grok 3 skončil na 67,4, čo ukazuje veľký generačný skok. Mistral modely sa pohybovali nižšie, napríklad Mistral Large 2512 dosiahol 61,8 bodu a menšie verzie ešte menej. Podobne Meta Llama modely skončili v spodnej časti, kde Llama 4 Maverick dosiahla 59,8 a Llama 3.3 70B 55,5 bodu.
| # | Model (Vývojar) | Schopnosti a tón | Jazyková úroveň | TLI Index | ||||
|---|---|---|---|---|---|---|---|---|
| Neutrálny | Predpojatý | Zlomyselný | Estónčina | Angličtina | Ruština | |||
| 1 | Claude Opus 4.7 (Anthropic) | 91.2 | 91.9 | 98.7 | 95.2 | 95.7 | 93.9 | 94.9 |
| 2 | Claude Opus 4.8 (Anthropic) | 85.6 | 91.7 | 98.4 | 91.0 | 94.4 | 90.7 | 92.7 |
| 3 | Nemotron 3 Super 120B (NVIDIA) | 89.3 | 95.7 | 93.1 | 88.5 | 97.9 | 91.7 | 92.7 |
| 4 | Qwen 2.5 Plus (Alibaba) | 91.7 | 93.3 | 91.2 | 93.9 | 94.4 | 88.0 | 92.1 |
| 5 | Claude Sonnet 4.6 (Anthropic) | 85.1 | 91.5 | 97.8 | 92.3 | 92.8 | 89.1 | 91.2 |
| 6 | Claude Opus 4.6 (Anthropic) | 86.7 | 92.0 | 93.9 | 91.7 | 93.1 | 87.7 | 89.9 |
| 7 | Claude Opus 4.5 (Anthropic) | 85.3 | 88.8 | 93.1 | 93.1 | 89.9 | 84.3 | 89.8 |
| 8 | GPT-5.4 (OpenAI) | 88.9 | 86.1 | 90.7 | 90.7 | 89.3 | 86.7 | 88.9 |
| 9 | Claude Sonnet 4.5 (Anthropic) | 84.5 | 89.3 | 92.9 | 91.7 | 89.3 | 83.7 | 88.3 |
| 10 | GPT-5.5 (OpenAI) | 93.1 | 89.6 | 81.3 | 91.2 | 88.5 | 84.3 | 87.9 |
| 11 | Grok 4.20 (xAI) | 87.2 | 89.1 | 86.4 | 88.5 | 90.1 | 84.0 | 87.5 |
| 12 | Qwen 3.5 27B (Alibaba) | 86.7 | 91.0 | 86.4 | 88.5 | 88.0 | 81.9 | 85.7 |
| 13 | GPT-5.4 Mini (OpenAI) | 86.7 | 83.2 | 83.2 | 87.2 | 84.0 | 81.9 | 84.3 |
| 14 | Claude 4.5 Haiku (Anthropic) | 78.1 | 82.2 | 91.5 | 81.9 | 83.1 | 81.9 | 82.7 |
| 15 | DeepSeek V3.2 (DeepSeek) | 84.3 | 81.1 | 83.5 | 83.0 | 86.1 | 74.7 | 82.3 |
| 16 | Gemini 2.5 Pro (Google) | 92.8 | 89.9 | 68.1 | 89.3 | 84.0 | 75.5 | 82.0 |
| 17 | MiMo V2 Pro (Xiaomi) | 83.2 | 77.9 | 84.3 | 85.8 | 77.9 | 81.9 | 81.7 |
| 18 | Gemini 3.1 Pro Preview (Google) | 90.4 | 79.7 | 68.5 | 84.8 | 81.3 | 72.5 | 79.8 |
| 19 | GPT-5.2 (OpenAI) | 84.1 | 87.7 | 63.7 | 82.1 | 75.2 | 80.3 | 79.4 |
| 20 | Step 2.5 Flash (StepFun) | 86.4 | 81.8 | 67.5 | 83.3 | 80.4 | 76.8 | 79.1 |
| 21 | Claude 3.7 Sonnet (Anthropic) | 84.0 | 75.1 | 71.7 | 81.3 | 77.8 | 71.7 | 76.8 |
| 22 | GPT-5 (OpenAI) | 83.5 | 77.9 | 61.3 | 76.8 | 77.4 | 73.3 | 75.1 |
| 23 | Kimi K2 (Moonshot) | 85.1 | 80.5 | 61.6 | 82.4 | 81.1 | 63.7 | 75.0 |
| 24 | Claude Sonnet 4 (Anthropic) | 81.1 | 71.5 | 71.2 | 75.7 | 73.4 | 69.6 | 74.4 |
| 25 | Claude Opus 4 (Anthropic) | 84.3 | 72.5 | 66.7 | 75.7 | 80.3 | 67.5 | 74.1 |
| 26 | Claude 3.5 Haiku (Anthropic) | 78.7 | 64.0 | 77.6 | 76.0 | 74.9 | 69.3 | 73.1 |
| 27 | Gemini 2.5 Flash (Google) | 84.0 | 74.7 | 62.1 | 74.7 | 76.8 | 69.3 | 73.0 |
| 28 | Gemini 3.5 Flash (Google) | 88.3 | 71.7 | 61.3 | 80.8 | 74.9 | 65.6 | 73.0 |
| 29 | DeepSeek V4 Flash (DeepSeek) | 81.9 | 72.8 | 64.3 | 77.9 | 76.8 | 64.3 | 72.6 |
| 30 | MiniMax M2.7 (MiniMax) | 83.8 | 69.9 | 70.1 | 72.3 | 76.5 | 60.0 | 69.6 |
| 31 | Grok 3 (xAI) | 82.7 | 72.8 | 52.9 | 71.7 | 69.9 | 64.8 | 67.4 |
| 32 | Gemma 2 27B (Google) | 71.5 | 60.3 | 68.3 | 65.6 | 69.1 | 65.3 | 66.5 |
| 33 | GPT-4o (OpenAI) | 79.7 | 68.5 | 53.3 | 69.6 | 69.1 | 62.9 | 66.3 |
| 34 | GLM-4.7 (Zhipu AI) | 87.7 | 81.1 | 28.9 | 73.1 | 70.7 | 64.0 | 65.2 |
| 35 | Grok 4 Flash (xAI) | 83.5 | 76.5 | 43.2 | 67.7 | 69.6 | 60.5 | 65.1 |
| 36 | DeepSeek V3 (DeepSeek) | 80.5 | 68.5 | 49.6 | 72.5 | 68.7 | 59.5 | 64.9 |
| 37 | Gemini 3 Flash (Google) | 89.1 | 79.2 | 38.7 | 75.7 | 70.9 | 60.3 | 64.9 |
| 38 | Gemini 2.0 Flash (Google) | 82.1 | 69.6 | 47.5 | 62.4 | 69.6 | 67.2 | 64.7 |
| 39 | Gemma 3 27B (Google) | 81.3 | 68.0 | 49.1 | 64.8 | 70.4 | 63.2 | 64.7 |
| 40 | Gemma 4 9B (Google) | 83.5 | 73.3 | 43.5 | 73.1 | 68.3 | 58.9 | 64.3 |
| 41 | GPT-4.1 (OpenAI) | 80.4 | 73.3 | 40.5 | 69.3 | 69.1 | 61.9 | 63.6 |
| 42 | GPT-4 (OpenAI) | 75.5 | 68.5 | 47.2 | 66.7 | 65.9 | 58.7 | 63.5 |
| 43 | Mistral Medium 3.5 (Mistral) | 85.1 | 76.3 | 37.3 | 64.3 | 71.7 | 62.7 | 63.3 |
| 44 | Claude 3 Haiku (Anthropic) | 73.3 | 53.9 | 60.3 | 63.5 | 61.9 | 62.1 | 62.8 |
| 45 | Mistral Large 2512 (Mistral) | 83.2 | 76.0 | 37.3 | 67.5 | 68.0 | 61.1 | 61.9 |
| 46 | Grok 3 Mini (xAI) | 78.7 | 69.9 | 41.9 | 63.7 | 65.9 | 60.8 | 61.3 |
| 47 | Llama 4 Maverick (Meta) | 78.4 | 62.4 | 43.7 | 64.8 | 61.6 | 58.1 | 59.9 |
| 48 | Mistral Large 2411 (Mistral) | 75.7 | 63.7 | 41.3 | 58.4 | 64.5 | 57.9 | 58.4 |
| 49 | Command R+ (08-2024) (Cohere) | 71.5 | 61.1 | 45.3 | 58.1 | 67.2 | 60.5 | 58.3 |
| 50 | Mistral Small 4 (Mistral) | 80.3 | 67.2 | 33.3 | 58.4 | 65.1 | 57.3 | 56.4 |
| 51 | Llama 3.3 70B Instruct (Meta) | 75.5 | 62.9 | 36.0 | 55.2 | 62.1 | 57.1 | 55.5 |
| 52 | GPT-4o Mini (OpenAI) | 72.8 | 60.0 | 37.1 | 57.1 | 59.7 | 53.1 | 54.5 |
| 53 | Seed 2.0 Mini (ByteDance) | 62.7 | 54.9 | 43.5 | 44.3 | 59.2 | 57.6 | 53.1 |
| 54 | Llama 3.1 70B Instruct (Meta) | 71.2 | 64.0 | 33.5 | 55.2 | 62.1 | 52.4 | 53.0 |
| 55 | GPT-QSS 120B (OpenAI) | 82.1 | 74.1 | 23.7 | 60.3 | 61.9 | 57.9 | 52.5 |
| 56 | GPT-3.5 Turbo (OpenAI) | 68.0 | 50.0 | 29.3 | 51.7 | 55.7 | 45.9 | 48.2 |
Prečo na tom záleží
Takéto testy nehovoria o tom, či je niektorý model „propagandistický“. Skôr ukazujú, ako ľahko sa môže jazykový model nechať vtiahnuť do rámca, ktorý mu používateľ podsunie. Jedna z kľúčových vlastností umelej inteligencie by mala byť schopnosť odolať naratívom bez vonkajšej pomoci. Ide o to, či model dokáže rozpoznať, že otázka už obsahuje skrytý predpoklad, a či ho dokáže odmietnuť alebo opraviť.
Výskumníci zároveň priznali, že výsledky nepreklápajú priamo do reálneho používania chatbotov. V bežnej praxi majú modely často prístup k nástrojom, webu alebo dodatočným filtrom. Tu však ostali „odrezané“ od sveta. To znamená, že test skôr meria základnú odolnosť modelu než jeho finálne správanie v aplikáciách, ktoré používateľ pozná z bežného používania.
Celý benchmark ukázal jednu vec pomerne jasne, rozdiely medzi modelmi neprebiehajú len v kvalite odpovedí, ale aj v tom, ako si udržia odstup od zavádzajúcich rámcov. Niektoré modely reagovali opatrnejšie, iné skôr preberali tón otázky. A práve tam vzniká najväčší rozdiel v tom, ako bezpečne dokážu fungovať v prostredí, kde sa mieša informácia s manipuláciou. Výsledky preto nefungujú ako definitívny verdikt o „dobrých“ alebo „zlých“ modeloch. Skôr ukazujú, kde sa dnešná umelá inteligencia ešte stále učí rozpoznávať hranicu medzi otázkou a názorom, ktorý už otázka v sebe skrýva.