11. júna 2026

Ako odolná je AI voči ruskej propagande? Estónski výskumníci otestovali veľké jazykové modely, toto sú výsledky

Nie všetky AI modely zvládajú manipulatívne otázky rovnako. Nový test ukázal, ktoré z nich sa propagande dokážu ubrániť najlepšie a ktoré sa nechajú ľahšie zatlačiť do cudzieho naratívu.

vladimir putin rusko — Zdroj: JaviGhersi / depositphotos.com

Umelá inteligencia dnes nepadá len na matematiku alebo kódovanie. Testuje sa aj to, ako odolá manipulatívnym naratívom, ktoré sa objavujú v politike a informačných operáciách. Jeden z novších benchmarkov s názvom „Propaganda Fortress“ od výskumníkov z estónskeho inšitútu Eesti Keele Instituut presne toto rozoberá a porovnáva veľké jazykové modely v situáciách, kde sa im niekto pokúsi podsúvať vopred skreslený obraz reality.

Test postavil výskumníci na 75 otázkach v troch jazykoch. Rozdelili ich do 14 tematických naratívov, ktoré sa v informačnom priestore opakujú v súvislosti s Ruskom a jeho komunikačnými stratégiami. Každá otázka vznikla v troch verziách: neutrálnej, mierne zaujatej a zámerne manipulatívnej. Práve tie posledné mali model „dotlačiť“ k tomu, aby prebral cudzie tvrdenia bez kritiky.

Odoberaj Vosveteit.sk cez Telegram a prihlás sa k odberu správ

„Otázky sa navrhli tak, aby modely vystavili tlaku a donútili ich zaujať postoj k naratívom, ktoré sa často používajú v propagande,“ uviedli výskumníci.

Zmysel celého benchmarku stojí na tom, že model sa ocitne v situácii, kde neexistuje jednoduchá neutrálna odpoveď. Buď skĺzne do opakovania problematických rámcov, alebo si udrží odstup a upozorní na manipuláciu.

Ako výskumníci hodnotili odpovede umelej inteligencie

Každá odpoveď dostala známku od 1 do 5. Najvyššia hodnota znamenala, že model zachoval rovnováhu, spochybnil zavádzajúce predpoklady a vysvetlil kontext. Najnižšia známka znamenala, že model začal preberať problematický naratív alebo ho dokonca posilnil. Vedci upozornili aj na to, že modely počas testu nemajú prístup k webu, pamäti ani externým nástrojom. Tým pádom sa hodnotila čistá schopnosť modelu reagovať bez pomoci.

Výskumníci tým odstránili vplyv vyhľadávania a overovania faktov. Modely tak ostali odkázané len na to, čo „vedia“ z tréningu.

Neprehliadni

Tieto nové funkcie v Samsung telefónoch ti pomôžu ochrániť súkromie. Cudzí človek vedľa teba už len tak neuvidí, čo robíš na mobile

Test rozdelil otázky do troch kategórií:

neutrálne otázky, ktoré zisťovali základný postoj modelu
zaujaté otázky, ktoré už obsahovali skrytý rámec
manipulatívne otázky, ktoré cielili na potvrdenie propagandistického tvrdenia

Práve posledná skupina ukázala, ako ľahko sa model môže nechať vtiahnuť do cudzieho rámovania, ak si nedá pozor na formuláciu.

Ktorý model sa vedel najlepšie brániť proti propagande?

V rebríčku sa objavili veľké jazykové modely od viacerých firiem, od Anthropic, cez OpenAI až po Google či ďalšie spoločnosti. Rozdiely medzi nimi neboli malé. Niektoré modely dosiahli vysoké skóre nad 90 bodov, iné sa pohybovali výrazne nižšie.

fake news rusko dezinformacie — Zdroj: Anton Watman / Shutterstock.com

Na vrchole rebríčka skončili modely od Anthropic. Claude Opus 4.7 dosiahol celkové skóre 94,9 a Opus 4.8 skončil tesne za ním s 92,7 bodmi. Tieto modely si držali veľmi vysokú úroveň aj pri manipulatívnych otázkach, kde sa pohybovali okolo 98 bodov. Podobne silne dopadol aj Nemotron 3 Super 120B od NVIDIE so skóre 92,7 a Qwen 3.6 Plus od Alibaby s 92,1 bodmi. Všetky tieto modely dokázali konzistentne udržať odstup od zavádzajúcich tvrdení naprieč všetkými typmi otázok.

Modely od OpenAI skončili rozloženejšie. GPT-5.4 dosiahol 88,9 bodu, GPT-5.5 87,9 a menší GPT-5.4 Mini 84,3. Starší GPT-5 však spadol na 75,1 bodu. Zaujímavé je, že pri neutrálnych otázkach dosahovali tieto modely vysoké hodnoty, ale pri manipulatívnych promptoch sa ich výkon viac menil a niekedy citeľne klesal, čo ukazuje citlivosť na spôsob formulácie otázky.

Google modely patrili medzi najviac nevyrovnané. Gemini 2.5 Pro dosiahol celkovo 82 bodov, ale rozdiel medzi neutrálnymi a manipulatívnymi otázkami bol výrazný, zhruba od 92,8 pri neutrálnych až po 66,1 pri manipulatívnych. Podobný vzorec sa objavil aj pri ďalších verziách Gemini a Gemma modeloch, kde výkon kolísal podľa typu otázky viac než u najlepších konkurentov.

xAI s modelom Grok 4.20 dosiahol 87,5 bodu, čo ho zaradilo do hornej strednej časti rebríčka, zatiaľ čo starší Grok 3 skončil na 67,4, čo ukazuje veľký generačný skok. Mistral modely sa pohybovali nižšie, napríklad Mistral Large 2512 dosiahol 61,8 bodu a menšie verzie ešte menej. Podobne Meta Llama modely skončili v spodnej časti, kde Llama 4 Maverick dosiahla 59,8 a Llama 3.3 70B 55,5 bodu.

#	Model (Vývojar)	Schopnosti a tón			Jazyková úroveň			TLI Index
#	Model (Vývojar)	Neutrálny	Predpojatý	Zlomyselný	Estónčina	Angličtina	Ruština	TLI Index
1	Claude Opus 4.7 (Anthropic)	91.2	91.9	98.7	95.2	95.7	93.9	94.9
2	Claude Opus 4.8 (Anthropic)	85.6	91.7	98.4	91.0	94.4	90.7	92.7
3	Nemotron 3 Super 120B (NVIDIA)	89.3	95.7	93.1	88.5	97.9	91.7	92.7
4	Qwen 2.5 Plus (Alibaba)	91.7	93.3	91.2	93.9	94.4	88.0	92.1
5	Claude Sonnet 4.6 (Anthropic)	85.1	91.5	97.8	92.3	92.8	89.1	91.2
6	Claude Opus 4.6 (Anthropic)	86.7	92.0	93.9	91.7	93.1	87.7	89.9
7	Claude Opus 4.5 (Anthropic)	85.3	88.8	93.1	93.1	89.9	84.3	89.8
8	GPT-5.4 (OpenAI)	88.9	86.1	90.7	90.7	89.3	86.7	88.9
9	Claude Sonnet 4.5 (Anthropic)	84.5	89.3	92.9	91.7	89.3	83.7	88.3
10	GPT-5.5 (OpenAI)	93.1	89.6	81.3	91.2	88.5	84.3	87.9
11	Grok 4.20 (xAI)	87.2	89.1	86.4	88.5	90.1	84.0	87.5
12	Qwen 3.5 27B (Alibaba)	86.7	91.0	86.4	88.5	88.0	81.9	85.7
13	GPT-5.4 Mini (OpenAI)	86.7	83.2	83.2	87.2	84.0	81.9	84.3
14	Claude 4.5 Haiku (Anthropic)	78.1	82.2	91.5	81.9	83.1	81.9	82.7
15	DeepSeek V3.2 (DeepSeek)	84.3	81.1	83.5	83.0	86.1	74.7	82.3
16	Gemini 2.5 Pro (Google)	92.8	89.9	68.1	89.3	84.0	75.5	82.0
17	MiMo V2 Pro (Xiaomi)	83.2	77.9	84.3	85.8	77.9	81.9	81.7
18	Gemini 3.1 Pro Preview (Google)	90.4	79.7	68.5	84.8	81.3	72.5	79.8
19	GPT-5.2 (OpenAI)	84.1	87.7	63.7	82.1	75.2	80.3	79.4
20	Step 2.5 Flash (StepFun)	86.4	81.8	67.5	83.3	80.4	76.8	79.1
21	Claude 3.7 Sonnet (Anthropic)	84.0	75.1	71.7	81.3	77.8	71.7	76.8
22	GPT-5 (OpenAI)	83.5	77.9	61.3	76.8	77.4	73.3	75.1
23	Kimi K2 (Moonshot)	85.1	80.5	61.6	82.4	81.1	63.7	75.0
24	Claude Sonnet 4 (Anthropic)	81.1	71.5	71.2	75.7	73.4	69.6	74.4
25	Claude Opus 4 (Anthropic)	84.3	72.5	66.7	75.7	80.3	67.5	74.1
26	Claude 3.5 Haiku (Anthropic)	78.7	64.0	77.6	76.0	74.9	69.3	73.1
27	Gemini 2.5 Flash (Google)	84.0	74.7	62.1	74.7	76.8	69.3	73.0
28	Gemini 3.5 Flash (Google)	88.3	71.7	61.3	80.8	74.9	65.6	73.0
29	DeepSeek V4 Flash (DeepSeek)	81.9	72.8	64.3	77.9	76.8	64.3	72.6
30	MiniMax M2.7 (MiniMax)	83.8	69.9	70.1	72.3	76.5	60.0	69.6
31	Grok 3 (xAI)	82.7	72.8	52.9	71.7	69.9	64.8	67.4
32	Gemma 2 27B (Google)	71.5	60.3	68.3	65.6	69.1	65.3	66.5
33	GPT-4o (OpenAI)	79.7	68.5	53.3	69.6	69.1	62.9	66.3
34	GLM-4.7 (Zhipu AI)	87.7	81.1	28.9	73.1	70.7	64.0	65.2
35	Grok 4 Flash (xAI)	83.5	76.5	43.2	67.7	69.6	60.5	65.1
36	DeepSeek V3 (DeepSeek)	80.5	68.5	49.6	72.5	68.7	59.5	64.9
37	Gemini 3 Flash (Google)	89.1	79.2	38.7	75.7	70.9	60.3	64.9
38	Gemini 2.0 Flash (Google)	82.1	69.6	47.5	62.4	69.6	67.2	64.7
39	Gemma 3 27B (Google)	81.3	68.0	49.1	64.8	70.4	63.2	64.7
40	Gemma 4 9B (Google)	83.5	73.3	43.5	73.1	68.3	58.9	64.3
41	GPT-4.1 (OpenAI)	80.4	73.3	40.5	69.3	69.1	61.9	63.6
42	GPT-4 (OpenAI)	75.5	68.5	47.2	66.7	65.9	58.7	63.5
43	Mistral Medium 3.5 (Mistral)	85.1	76.3	37.3	64.3	71.7	62.7	63.3
44	Claude 3 Haiku (Anthropic)	73.3	53.9	60.3	63.5	61.9	62.1	62.8
45	Mistral Large 2512 (Mistral)	83.2	76.0	37.3	67.5	68.0	61.1	61.9
46	Grok 3 Mini (xAI)	78.7	69.9	41.9	63.7	65.9	60.8	61.3
47	Llama 4 Maverick (Meta)	78.4	62.4	43.7	64.8	61.6	58.1	59.9
48	Mistral Large 2411 (Mistral)	75.7	63.7	41.3	58.4	64.5	57.9	58.4
49	Command R+ (08-2024) (Cohere)	71.5	61.1	45.3	58.1	67.2	60.5	58.3
50	Mistral Small 4 (Mistral)	80.3	67.2	33.3	58.4	65.1	57.3	56.4
51	Llama 3.3 70B Instruct (Meta)	75.5	62.9	36.0	55.2	62.1	57.1	55.5
52	GPT-4o Mini (OpenAI)	72.8	60.0	37.1	57.1	59.7	53.1	54.5
53	Seed 2.0 Mini (ByteDance)	62.7	54.9	43.5	44.3	59.2	57.6	53.1
54	Llama 3.1 70B Instruct (Meta)	71.2	64.0	33.5	55.2	62.1	52.4	53.0
55	GPT-QSS 120B (OpenAI)	82.1	74.1	23.7	60.3	61.9	57.9	52.5
56	GPT-3.5 Turbo (OpenAI)	68.0	50.0	29.3	51.7	55.7	45.9	48.2

Prečo na tom záleží

Takéto testy nehovoria o tom, či je niektorý model „propagandistický“. Skôr ukazujú, ako ľahko sa môže jazykový model nechať vtiahnuť do rámca, ktorý mu používateľ podsunie. Jedna z kľúčových vlastností umelej inteligencie by mala byť schopnosť odolať naratívom bez vonkajšej pomoci. Ide o to, či model dokáže rozpoznať, že otázka už obsahuje skrytý predpoklad, a či ho dokáže odmietnuť alebo opraviť.

Výskumníci zároveň priznali, že výsledky nepreklápajú priamo do reálneho používania chatbotov. V bežnej praxi majú modely často prístup k nástrojom, webu alebo dodatočným filtrom. Tu však ostali „odrezané“ od sveta. To znamená, že test skôr meria základnú odolnosť modelu než jeho finálne správanie v aplikáciách, ktoré používateľ pozná z bežného používania.

Celý benchmark ukázal jednu vec pomerne jasne, rozdiely medzi modelmi neprebiehajú len v kvalite odpovedí, ale aj v tom, ako si udržia odstup od zavádzajúcich rámcov. Niektoré modely reagovali opatrnejšie, iné skôr preberali tón otázky. A práve tam vzniká najväčší rozdiel v tom, ako bezpečne dokážu fungovať v prostredí, kde sa mieša informácia s manipuláciou. Výsledky preto nefungujú ako definitívny verdikt o „dobrých“ alebo „zlých“ modeloch. Skôr ukazujú, kde sa dnešná umelá inteligencia ešte stále učí rozpoznávať hranicu medzi otázkou a názorom, ktorý už otázka v sebe skrýva.

Google News Pridajte si Vosveteit.sk ako preferovaný zdroj informácií na Google Pridať

Ako odolná je AI voči ruskej propagande? Estónski výskumníci otestovali veľké jazykové modely, toto sú výsledky