OpenAI čelí obvineniam, že vraj kradlo platený obsah na trénovanie ChatGPT

Štúdia AI Disclosures Project naznačuje, že OpenAI mohlo trénovať svoj najnovší model GPT-4o na platených knihách z O’Reilly Media bez licencie. Spoločnosť sa k týmto obvineniam zatiaľ nevyjadrila.

Hacker dostal prístup k miliónom OpenAI účtov
Zdroj: Pixabay (Chihiro23, Alexandra_Koch), Wikimedia (OpenAI), Úprava: Vosveteit.sk

OpenAI sa už dlhší čas ocitá pod paľbou kritiky za údajné trénovanie svojich AI modelov na autorsky chránenom obsahu bez povolenia. Najnovšie sa v štúdii organizácie AI Disclosures Project objavili vážne podozrenia, že spoločnosť používala platené knihy od vydavateľstva O’Reilly Media bez licencie.

AI modely potrebujú kvalitné dáta

Každý model umelej inteligencie sa učí na obrovskom množstve dát, od kníh a článkov až po filmy či televízne relácie. Fungujú ako pokročilé prediktívne algoritmy, ktoré na základe vzorov v tréningových dátach generujú texty, obrázky alebo kód. Keď model „píše“ článok o starogréckej tragédii alebo vytvára ilustrácie v štýle Ghibli, v skutočnosti len kombinuje známe vzory. Nevytvára nič úplne nové.

Odoberaj Vosveteit.sk cez Telegram a prihlás sa k odberu správ

Z dôvodu obmedzeného množstva dostupných dát viaceré AI spoločnosti, vrátane OpenAI, začali experimentovať s trénovaním modelov na syntetických údajoch. Tento prístup však môže znížiť presnosť a spoľahlivosť modelu. Preto AI spoločnosti stále potrebujú aj reálne dáta, čo prináša právne otázky.

Použitie platených kníh? Výskum naznačuje áno

Podľa AI Disclosures Project existujú náznaky, že OpenAI pri trénovaní modelu GPT-4o využívalo knihy z O’Reilly Media. Bežne sú dostupné iba za poplatok. Túto neziskovú organizáciu založili Tim O’Reilly (CEO O’Reilly Media) a ekonóm Ilan Strauss. Vo svojej štúdii skúmali, ako dobre model GPT-4o rozpoznáva obsah týchto kníh v porovnaní so staršou verziou GPT-3.5 Turbo.

Vedci použili metódu DE-COP, predstavenú v akademickom výskume v roku 2024. Táto metóda funguje ako „membership inference attack“. Testuje, či model dokáže spoľahlivo rozlíšiť originálny ľudský text od jeho parafrázovanej AI verzie. Ak model rozpozná ľudský text, znamená to, že ho pravdepodobne videl počas tréningu.

Výskumníci analyzovali 13 962 úryvkov z 34 kníh od O’Reilly Media. Zistili, že GPT-4o častejšie „spoznával“ obsah týchto kníh v porovnaní so staršími modelmi, ako napríklad GPT-3.5 Turbo. Výsledky naznačujú, že tieto knihy mohli byť súčasťou tréningového datasetu najnovšieho modelu.

umela inteligencia deepmind ithaca
Zdroj: DeepMind, Pixabay (@Geralt), Úprava: Vosveteit.sk

Neexistuje priamy dôkaz, ale podozrenia silnejú

Autori štúdie uznávajú, že ich metóda nie je úplne nepriestrelná. Napriek tomu výsledky silne naznačujú, že OpenAI používalo neautorizované platené knihy. Pripúšťajú tiež možnosť, že tieto knihy sa do modelu dostali iným spôsobom. Používatelia mohli kopírovať a vkladať ich obsah do ChatGPT.

Štúdia sa nezamerala na najnovšie OpenAI modely, ako napríklad GPT-4.5 alebo takzvané „reasoning“ modely o3-mini a o1. Nie je preto jasné, či tieto verzie boli trénované na platených knihách O’Reilly alebo či OpenAI zmenilo svoj prístup.

OpenAI a autorské práva: Dlhodobý problém

OpenAI sa už dlhšie snaží získať prístup k kvalitnejším dátam. Uzavrelo dohody s viacerými mediálnymi spoločnosťami a vydavateľstvami. Dokonca najímalo novinárov a expertov z rôznych oblastí, aby pomohli vylepšiť výstupy modelov. Spoločnosť tvrdí, že umožňuje vlastníkom obsahu požiadať o vylúčenie ich materiálov z tréningových datasetov. Tento mechanizmus však nie je úplne dokonalý. Stále existujú obavy, že OpenAI využíva aj neautorizované dáta.

Celá situácia prichádza v čase, keď OpenAI čelí viacerým súdnym sporom týkajúcim sa autorských práv a spôsobu, akým nakladá s chráneným obsahom. Najnovšia štúdia síce neprináša jednoznačný dôkaz o porušení zákona, ale pridáva ďalšie pochybnosti o praktikách tejto poprednej AI spoločnosti. OpenAI sa k týmto tvrdeniam zatiaľ nevyjadrilo.

Sleduj našu novú Facebook stránku a pridaj sa!

Komentáre