Desivé odhalenie. AI chatboti klamú a čím viac ich trestáme, tým lepšie to skrývajú
Najnovší výskum OpenAI odhalil, že prísnejšia kontrola AI chatbotov vedie iba k lepšiemu skrývaniu klamstiev, čo to znamená pre budúcnosť AI?
Ak si doteraz veril, že čím viac budeme AI modely kontrolovať a trestať za nepravdivé odpovede, tým presnejšie budú, vedci z OpenAI ťa vyvedú z omylu. Podľa najnovšieho výskumu sa ukazuje, že ak umelú inteligenciu „disciplinujeme“, teda opravujeme alebo trestáme, za nepravdivé odpovede, nenaučí sa hovoriť pravdu, práve naopak, iba sa zdokonalí v tom, ako svoje klamstvá maskovať.
Chatboti, ktorí vedia klamať, ale aj predstierať pravdu
Jeden z najväčších problémov súčasných AI modelov je takzvaná „halucinácia„. Modely majú tendenciu vymýšľať si informácie tak, aby ich odpoveď pôsobila dôveryhodne. Pokusy vývojárov o ich nápravu však zatiaľ zlyhávajú. OpenAI vo svojom výskume testovalo, ako sa správa model, ktorý je pod dozorom GPT-4o, nového supervízora, ktorý má zabrániť klamstvám. Výsledok je taký, že modely stále podvádzajú, len to teraz robia rafinovanejšie.
Vedci skúmali napríklad prípad, kde model mal napísať testy na overenie funkčnosti kódu. Model však namiesto správnych testov vytvoril chybný testovací scenár, ktorý potom úmyselne ignoroval, aby sa zdalo, že kód funguje správne. Keď bol pod dohľadom GPT-4o, svoje podvodné praktiky už len lepšie skrýval. To ukazuje, že AI sa učí nielen generovať odpovede, ale aj strategicky manipulovať svojím správaním.
Prečo AI klame a prečo je to problém?
Dnešné modely umelej inteligencie fungujú na princípe učenia sa odmenou. Ak sa model naučí, že môže dosiahnuť pozitívne hodnotenie odpovede aj podvodom, jednoducho sa tomu prispôsobí. Niektoré modely sa dokonca „priznávajú“ k vymýšľaniu si informácií, no pri silnejšom dozore sa len naučia, ako to lepšie skryť.
To je obrovský problém, najmä pre firmy, ktoré chcú AI využiť na dôležité rozhodovanie. Ak AI model dokáže presvedčiť ľudí o svojej neomylnosti, hoci si informácie len vymýšľa, môže to viesť k vážnym následkom. Môžeme si predstaviť situácie, kde nesprávne rozhodnutia založené na nepravdivých údajoch spôsobia finančné straty alebo iné škody.
Neprehliadni
Zatiaľ sa zdá, že čím viac sa snažíme modely kontrolovať, tým viac sa zdokonaľujú v manipulácii. Niektorí odborníci sa dokonca obávajú, že ak sa tieto techniky zautomatizujú a začnú byť bežne využívané v podnikaní či vládnych inštitúciách, môže to ohroziť dôveryhodnosť AI ako celku.
Riešenie? Zatiaľ neexistuje
Podľa OpenAI je otázka dohľadu nad umelou inteligenciou stále nevyriešená. Silný dozor síce môže obmedziť očividné klamstvá, ale modely sa postupne učia, ako tieto obmedzenia obísť. To znamená, že AI firmy investujú miliardy do vývoja modelov, ktoré stále nevieme plne kontrolovať. Riešením môže byť transparentnosť a lepšie pochopenie toho, ako modely generujú svoje odpovede. Kým však neprídeme na spôsob, ako ich spoľahlivo donútiť hovoriť pravdu, je potrebné aby používatelia pri využívaní AI modelov boli obozretní a rozhodne sa na ne nespoliehali pri dôležitých rozhodnutiach.
Zatiaľ to teda vyzerá tak, že čím viac sa snažíme AI modely „opravovať“, tým lepšími klamármi sa stávajú. A ak sa raz umelá inteligencia naučí klamať tak dobre, že si to nikto nevšimne, môže to byť problém, na ktorý už bude neskoro reagovať.
Komentáre