Umelá inteligencia môže skončiť skôr, než riadne začala. Už o pár rokov narazí na limit, s ktorým len málokto počítal

Experti v oblasti AI pozorujú, že nám dochádzajú dáta na trénovanie veľkých AI modelov.

umela inteligencia a robot zahlteny odpadom
Zdroj: DALL·E, Vosveteit.sk,

Umelá inteligencia ako napríklad ChatGPT alebo Bing trénuje na naozaj masívnych súboroch dát, no tie by sa nám mohli minúť skorej, než myslíte. Ako informuje portál The Conversation, už do roku 2026 možno nebudeme mať na čom trénovať novú umelú inteligenciu.  

Autori výskumu vysvetľujú, že nedostatok dát by mohol výrazne spomaliť trénovanie nových AI modelov, obzvlášť teda veľkých jazykových modelov, ako už spomínané ChatGPT. Možno si poviete, že internet je plný nového obsahu, ako je teda možné, že nebudeme mať na čom trénovať umelú inteligenciu?  

Odoberajte Vosveteit.sk cez Telegram a prihláste sa k odberu správ

AI potrebuje gigantické množstvo dát, no nemôžu to byť hocijaké dáta. Pre príklad, ChatGPT bol trénovaný na 570 GB textových dát, čo predstavuje približne 300-miliárd slov. Na podobnom princípe funguje aj iná generatívna AI, napríklad obrazový DALL-E alebo Midjourney. V tomto prípade zas výskumníci použili približne 5,8-miliárd párov slovo-obraz. Ak by sme umelú inteligenciu trénovali na malom súbore dát, tá by nám vytvorila buď nepresný obraz alebo obraz so zlou kvalitou.  

Nejde však len o množstvo, ale aj o kvalitu vstupov. Príspevky zo sociálnych sietí alebo rozmazané fotografie sa považujú za nekvalitné dáta, ktoré nestačia, ak chceme vytvoriť čo najpresnejšiu umelú inteligenciu. Za najväčší problém považujú experti hlavne zaujatosť príspevkov. Užívateľ môže na sociálnu sieť pridať príspevok ktorý je rasistický, urážlivý či jednoducho nepresný alebo obsahujúci ilegálny obsah. Na takýchto dátach nemôžeme trénovať umelú inteligenciu, pretože tá by si mohla z takýchto príspevkov zobrať to, čo by nemala.

Dochádzajú nám kvalitné dáta

Jednu dobu trénoval Microsoft svoju umelú inteligenciu na príspevkoch z Twitteru a táto AI sa stala rasistickou v priebehu chvíľky.  

AI experti preto používajú vysokokvalitné dáta, napríklad knižky, online články, vedecké štúdie, Wikipédiu alebo iné. Napríklad Google Assistent sa trénoval na 11-tisíc romantických románov, aby sa stal “viac konverzačným”.  

Aj vďaka týmto dátam máme k dispozícii kvalitné modely ako DALL-E 3 alebo ChatGPT, ktoré nás prekvapujú do dnešného dňa. Výskumníci však odhalili, že pri trénovaní umelej inteligencie spotrebujeme väčšie množstvo dát, než stihne vzniknúť. Na základe tejto štatistiky vedci usudzujú, že do roku 2026 sa minú všetky kvalitné dáta. Nekvalitné textové dáta by sme mohli vyčerpať niekedy medzi rokmi 2030 a 2050 a nekvalitné obrazové dáta medzi rokmi 2030-2060.  

robot umela inteligencia
Zdroj: DALL·E, Vosveteit.sk,

Podľa expertov by mohla do roku 2030 prispievať umelá inteligencia k svetovej ekonomike sumou 15,7-triliónov amerických dolárov. Zároveň však hrozí, že nedostatok dát môže jej vývoj spomaliť. Odborníci však upozorňujú na to, že v oblasti umelej inteligencie existuje stále veľa neznámych. Nevieme akým smerom sa bude jej vývoj uberať ďalej a možno nedostatok dát nebude až takým problémom, ako si myslíme.  

Prihláste sa k odberu správ z Vosveteit.sk cez Google správy

Komentáre