Výskumníci zistili, že v databáze, ktorá sa používala na trénovanie AI, boli aj fotografie sexuálneho zneužívania detí
Výskumníci poznamenávajú, že obrázky zbierané v budúcich datasetoch by mali byť skontrolované proti známym zoznamom CSAM pomocou detekčných nástrojov.
Výskum uskutočnený Stanford Internet Observatory (SIO) odhalil stovky známych obrázkov sexuálneho zneužívania detí (CSAM) v otvorenom datasete, ktoré boli použité na trénovanie populárnych modelov generovania textu na obrázok pomocou umelej inteligencie, ako je napríklad Stable Diffusion.
Predchádzajúca správa SIO v spolupráci s neziskovou organizáciou zameranou na online bezpečnosť detí Thorn poukázala na rýchly pokrok v generatívnom strojovom učení, ktorý umožňuje vytvárať realistické obrázky podporujúce sexuálne zneužívanie detí s využitím open source modelov generovania obrázkov pomocou AI. Nové zistenia výskumníkov odhaľujú, že tieto modely sú priamo trénované na CSAM prítomnom vo verejnom datasete obsahujúcom miliardy obrázkov, známom ako LAION-5B. Dataset obsahuje zároveň aj známe prípady CSAM, ktoré boli zhromaždené z rôznych zdrojov vrátane hlavných sociálnych médií či populárnych stránok pre dospelých.
Výskumníkom sa podarilo takto identifikovať viac ako 1,6-tisíc obrázkov CSAM a hoci tvoria len malú časť z celkového datasetu, tak výskumníci veria, že ide o dostatočnú vzorku, ktorá potenciálne umožňuje vytvárať nelegálny obsah.
„Súbor údajov zahŕňal známy obsah sexuálneho zneužívania detí zo širokej škály zdrojov vrátane bežných webových stránok sociálnych médií a populárnych stránok s videami pre dospelých.“, uvádzajú výskumníci v správe.
Aktuálne podľa zverejnenej správy prebieha odstránenie identifikovaných materiálov, keďže výskumníci nahlásili URL adresy obrázkov Národnému centru pre nezvestné a zneužívané deti (NCMEC) v USA a Kanadskému centru pre ochranu detí (C3P).
Existujú metódy na minimalizáciu CSAM v datasetoch používaných na trénovanie modelov AI, ale je náročné čistiť alebo zastaviť distribúciu otvorených datasetov bez centrálnej autority, ktorá by skutočné údaje hostila.
Neprehliadni
Výskumníci poznamenávajú, že obrázky zbierané v budúcich datasetoch by mali byť skontrolované proti známym zoznamom CSAM pomocou detekčných nástrojov, ako je PhotoDNA od Microsoftu, alebo prostredníctvom spolupráce s organizáciami zameranými na ochranu detí, ako sú NCMEC a C3P.
Komentáre