Umelá inteligencia

2. apríla 2025

OpenAI čelí obvineniam, že vraj kradlo platený obsah na trénovanie ChatGPT

Štúdia AI Disclosures Project naznačuje, že OpenAI mohlo trénovať svoj najnovší model GPT-4o na platených knihách z O’Reilly Media bez licencie. Spoločnosť sa k týmto obvineniam zatiaľ nevyjadrila.

Hacker dostal prístup k miliónom OpenAI účtov — Zdroj: Pixabay (Chihiro23, Alexandra_Koch), Wikimedia (OpenAI), Úprava: Vosveteit.sk

OpenAI sa už dlhší čas ocitá pod paľbou kritiky za údajné trénovanie svojich AI modelov na autorsky chránenom obsahu bez povolenia. Najnovšie sa v štúdii organizácie AI Disclosures Project objavili vážne podozrenia, že spoločnosť používala platené knihy od vydavateľstva O’Reilly Media bez licencie.

AI modely potrebujú kvalitné dáta

Každý model umelej inteligencie sa učí na obrovskom množstve dát, od kníh a článkov až po filmy či televízne relácie. Fungujú ako pokročilé prediktívne algoritmy, ktoré na základe vzorov v tréningových dátach generujú texty, obrázky alebo kód. Keď model „píše“ článok o starogréckej tragédii alebo vytvára ilustrácie v štýle Ghibli, v skutočnosti len kombinuje známe vzory. Nevytvára nič úplne nové.

Odoberaj Vosveteit.sk cez Telegram a prihlás sa k odberu správ

Z dôvodu obmedzeného množstva dostupných dát viaceré AI spoločnosti, vrátane OpenAI, začali experimentovať s trénovaním modelov na syntetických údajoch. Tento prístup však môže znížiť presnosť a spoľahlivosť modelu. Preto AI spoločnosti stále potrebujú aj reálne dáta, čo prináša právne otázky.

Použitie platených kníh? Výskum naznačuje áno

Podľa AI Disclosures Project existujú náznaky, že OpenAI pri trénovaní modelu GPT-4o využívalo knihy z O’Reilly Media. Bežne sú dostupné iba za poplatok. Túto neziskovú organizáciu založili Tim O’Reilly (CEO O’Reilly Media) a ekonóm Ilan Strauss. Vo svojej štúdii skúmali, ako dobre model GPT-4o rozpoznáva obsah týchto kníh v porovnaní so staršou verziou GPT-3.5 Turbo.

Vedci použili metódu DE-COP, predstavenú v akademickom výskume v roku 2024. Táto metóda funguje ako „membership inference attack“. Testuje, či model dokáže spoľahlivo rozlíšiť originálny ľudský text od jeho parafrázovanej AI verzie. Ak model rozpozná ľudský text, znamená to, že ho pravdepodobne videl počas tréningu.

Neprehliadni

Tieto nové funkcie v Samsung telefónoch ti pomôžu ochrániť súkromie. Cudzí človek vedľa teba už len tak neuvidí, čo robíš na mobile

Výskumníci analyzovali 13 962 úryvkov z 34 kníh od O’Reilly Media. Zistili, že GPT-4o častejšie „spoznával“ obsah týchto kníh v porovnaní so staršími modelmi, ako napríklad GPT-3.5 Turbo. Výsledky naznačujú, že tieto knihy mohli byť súčasťou tréningového datasetu najnovšieho modelu.

umela inteligencia deepmind ithaca — Zdroj: DeepMind, Pixabay (@Geralt), Úprava: Vosveteit.sk

Neexistuje priamy dôkaz, ale podozrenia silnejú

Autori štúdie uznávajú, že ich metóda nie je úplne nepriestrelná. Napriek tomu výsledky silne naznačujú, že OpenAI používalo neautorizované platené knihy. Pripúšťajú tiež možnosť, že tieto knihy sa do modelu dostali iným spôsobom. Používatelia mohli kopírovať a vkladať ich obsah do ChatGPT.

Štúdia sa nezamerala na najnovšie OpenAI modely, ako napríklad GPT-4.5 alebo takzvané „reasoning“ modely o3-mini a o1. Nie je preto jasné, či tieto verzie boli trénované na platených knihách O’Reilly alebo či OpenAI zmenilo svoj prístup.

OpenAI a autorské práva: Dlhodobý problém

OpenAI sa už dlhšie snaží získať prístup k kvalitnejším dátam. Uzavrelo dohody s viacerými mediálnymi spoločnosťami a vydavateľstvami. Dokonca najímalo novinárov a expertov z rôznych oblastí, aby pomohli vylepšiť výstupy modelov. Spoločnosť tvrdí, že umožňuje vlastníkom obsahu požiadať o vylúčenie ich materiálov z tréningových datasetov. Tento mechanizmus však nie je úplne dokonalý. Stále existujú obavy, že OpenAI využíva aj neautorizované dáta.

Celá situácia prichádza v čase, keď OpenAI čelí viacerým súdnym sporom týkajúcim sa autorských práv a spôsobu, akým nakladá s chráneným obsahom. Najnovšia štúdia síce neprináša jednoznačný dôkaz o porušení zákona, ale pridáva ďalšie pochybnosti o praktikách tejto poprednej AI spoločnosti. OpenAI sa k týmto tvrdeniam zatiaľ nevyjadrilo.

Google News Pridajte si Vosveteit.sk ako preferovaný zdroj informácií na Google Pridať

OpenAI čelí obvineniam, že vraj kradlo platený obsah na trénovanie ChatGPT

AI modely potrebujú kvalitné dáta

Použitie platených kníh? Výskum naznačuje áno

Neprehliadni

Neexistuje priamy dôkaz, ale podozrenia silnejú

OpenAI a autorské práva: Dlhodobý problém

Pravidlá preberanie obsahu:

Posledné návody

Ako si pridať správy z webov priamo na domovskú obrazovku telefónu? Túto aplikáciu pre Android a iPhone sa oplatí vyskúšať

Spyware sa do mobilu môže dostať aj bez kliknutia. Apple, Google a WhatsApp majú ochranu, ktorú si vieš zapnúť za pár sekúnd

11 tipov, ako čo najlepšie využiť split screen funkciu Androidu: Už sa nebudeš musieť neustále prepínať medzi oknami

Vieš, prečo ti Wi-Fi router stále bliká? Toto prezrádza blikanie kontroliek o stave tvojho internetu

Ako si v Samsung telefóne nastaviť Gemini alebo Perplexity namiesto Bixby? Zmena AI asistenta trvá len pár sekúnd

Tieto nové funkcie v Samsung telefónoch ti pomôžu ochrániť súkromie. Cudzí človek vedľa teba už len tak neuvidí, čo robíš na mobile

Mohlo by Vás zaujímať

Armádne technológie

VIDEO: Ukrajinci oslepili ruskú S-300. Dron RAM II zničil 5N63S, citlivý prvok batérie, ktorý sa nahrádza veľmi ťažko

VIDEO: Rusi si mysleli, že 100 kilometrov od frontu sú v bezpečí. Potom priletel ukrajinský FPV dron

Rusko dodalo vzdušným silám nové Su-35S. Moskva však tají, koľko stíhačiek armáda dostala

Elon Musk zúri. Americké vraždiace drony mali používať civilný Starlink v rozpore s pravidlami. Od Pentagonu žiada platiť 5x viac

VIDEO: Ukrajina otestovala holandský AI systém na zachytávanie dronov typu Shahed. Rusom môže skomplikovať masové útoky

Filmy a seriály

Netflix odštartoval jún silnou nádielkou filmov. Do ponuky pribudol Rocky, The Big Lebowski, Creed aj celá séria o Riddickovi

Netflix nespomaľuje ani na konci mája. V najbližších dňoch pridá nové seriály, dokumenty aj film o Stephenovi Hawkingovi

Nevieš, čo si pozrieť cez víkend? Netflix pridal nové filmy a seriály, medzi nimi aj jeden z najzvláštnejších sci-fi hororov posledných rokov

Na Netflixe pribudli nové filmy a seriály. Toto sú víkendové novinky, ktoré si môžeš pustiť z gauča

Netflix pridal nové filmy a seriály na víkend. Čaká ťa temné krimi, dánsky thriller aj reality šou, ktorá opäť preverí vzťahy

Windows

Týchto 6 služieb tvojho počítača s Windowsom ho môže zbytočne brzdiť. Po ich vypnutí ti pôjde zariadenie rýchlejšie

Windows 11 dostane väčšie možnosti prispôsobenia panela úloh a ponuky Štart. Microsoft vracia presúvanie panela, menšie ikony aj lepšie nastavenia odporúčaní

Aktualizácia Windowsu ti už nemusí rozbiť počítač na celé dni. Microsoft chystá automatickú záchranu chybných ovládačov

Microsoft otvorene priznal kritiku používateľov: Windows 11 chce opraviť od základov a takto sa zmení tvoj PC

Hackeri zneužívajú známu aplikáciu vo Windowse. Cez ňu môžu vidieť tvoje SMS správy aj jednorazové prihlasovacie kódy

OpenAI čelí obvineniam, že vraj kradlo platený obsah na trénovanie ChatGPT

AI modely potrebujú kvalitné dáta

Použitie platených kníh? Výskum naznačuje áno

Neprehliadni

Neexistuje priamy dôkaz, ale podozrenia silnejú

Zaujímavé články

OpenAI a autorské práva: Dlhodobý problém

Zdieľať článok:

Pravidlá preberanie obsahu:

Posledné návody

Ako si pridať správy z webov priamo na domovskú obrazovku telefónu? Túto aplikáciu pre Android a iPhone sa oplatí vyskúšať

Spyware sa do mobilu môže dostať aj bez kliknutia. Apple, Google a WhatsApp majú ochranu, ktorú si vieš zapnúť za pár sekúnd

11 tipov, ako čo najlepšie využiť split screen funkciu Androidu: Už sa nebudeš musieť neustále prepínať medzi oknami

Vieš, prečo ti Wi-Fi router stále bliká? Toto prezrádza blikanie kontroliek o stave tvojho internetu

Ako si v Samsung telefóne nastaviť Gemini alebo Perplexity namiesto Bixby? Zmena AI asistenta trvá len pár sekúnd

Tieto nové funkcie v Samsung telefónoch ti pomôžu ochrániť súkromie. Cudzí človek vedľa teba už len tak neuvidí, čo robíš na mobile

Mohlo by Vás zaujímať

Armádne technológie

VIDEO: Ukrajinci oslepili ruskú S-300. Dron RAM II zničil 5N63S, citlivý prvok batérie, ktorý sa nahrádza veľmi ťažko

VIDEO: Rusi si mysleli, že 100 kilometrov od frontu sú v bezpečí. Potom priletel ukrajinský FPV dron

Rusko dodalo vzdušným silám nové Su-35S. Moskva však tají, koľko stíhačiek armáda dostala

Elon Musk zúri. Americké vraždiace drony mali používať civilný Starlink v rozpore s pravidlami. Od Pentagonu žiada platiť 5x viac

VIDEO: Ukrajina otestovala holandský AI systém na zachytávanie dronov typu Shahed. Rusom môže skomplikovať masové útoky

Filmy a seriály

Netflix odštartoval jún silnou nádielkou filmov. Do ponuky pribudol Rocky, The Big Lebowski, Creed aj celá séria o Riddickovi

Netflix nespomaľuje ani na konci mája. V najbližších dňoch pridá nové seriály, dokumenty aj film o Stephenovi Hawkingovi

Nevieš, čo si pozrieť cez víkend? Netflix pridal nové filmy a seriály, medzi nimi aj jeden z najzvláštnejších sci-fi hororov posledných rokov

Na Netflixe pribudli nové filmy a seriály. Toto sú víkendové novinky, ktoré si môžeš pustiť z gauča

Netflix pridal nové filmy a seriály na víkend. Čaká ťa temné krimi, dánsky thriller aj reality šou, ktorá opäť preverí vzťahy

Windows

Týchto 6 služieb tvojho počítača s Windowsom ho môže zbytočne brzdiť. Po ich vypnutí ti pôjde zariadenie rýchlejšie

Windows 11 dostane väčšie možnosti prispôsobenia panela úloh a ponuky Štart. Microsoft vracia presúvanie panela, menšie ikony aj lepšie nastavenia odporúčaní

Aktualizácia Windowsu ti už nemusí rozbiť počítač na celé dni. Microsoft chystá automatickú záchranu chybných ovládačov

Microsoft otvorene priznal kritiku používateľov: Windows 11 chce opraviť od základov a takto sa zmení tvoj PC

Hackeri zneužívajú známu aplikáciu vo Windowse. Cez ňu môžu vidieť tvoje SMS správy aj jednorazové prihlasovacie kódy