Vieš, ktoré AI modely „halucinujú“ najviac? Týmto modelom never, mohli by ťa oklamať!
Objav, ktoré AI modely dokážu generovať najpresnejšie odpovede, a zisti, prečo sú menšie modely často lepšie než tie veľké.
Umelá inteligencia (AI) je dnes súčasťou takmer každého aspektu nášho života. Či už používaš chatbota na zákaznícku podporu, analyzuješ dáta alebo si len vyhľadávaš informácie. No ako pri každej technológii, aj tu platí, že nič nie je dokonalé. Hlavnou výzvou v oblasti veľkých jazykových modelov (LLM) sú tzv. „halucinácie“. Možno si o nich už počul, no ak nie, tu je rýchly úvod do tejto problematiky.
Čo sú halucinácie AI?
Halucinácie v kontexte AI znamenajú, že model vytvára výstupy, ktoré nie sú pravdivé, nedávajú zmysel alebo nemajú žiadny faktický základ. Napríklad môže generovať presvedčivo znejúce tvrdenia, ktoré sú úplne nepravdivé, ako „Banány rastú na Antarktíde“. Tento problém je čoraz závažnejší, najmä preto, že sa AI používa v oblastiach, kde chyba môže stáť veľa – v medicíne, práve či financiách. Tento jav popisuje IBM ako jav, ktorý sa vyskytuje, keď veľký jazykový model (LLM), objaví vzor alebo objekt, ktorý neexistuje, čo vedie k výstupom ktoré sú nepresné alebo nezmyselné.
Prečo však niektoré modely halucinujú viac než iné? Odpoveď závisí od niekoľkých faktorov: veľkosť modelu, kvalita tréningových dát a metódy, ktoré vývojári používajú na optimalizáciu modelov.
Ktoré modely sú najpresnejšie?
Podľa nedávnej analýzy spoločnosti Vectara, ktorá skúmala 15 najlepších jazykových modelov, halucinácie nie sú rovnaké pre všetky systémy. Testy prebiehali na 1 000 krátkych textoch, ktoré modely sumarizovali. Potom sa hodnotilo, koľko výstupov bolo fakticky nesprávnych. Výsledky ukázali, že niektoré modely sú oveľa presnejšie než ostatné. Tu je rebríček najlepších (resp. najhorším zo skúmaných modelov):
- Zhipu AI GLM-4-9B-Chat 1,3 %
- Google Gemini-2.0-Flash-Exp 1,3 %
- OpenAI-o1-mini 1,4 %
- OpenAI-GPT-4o 1,5 %
- OpenAI-GPT-4o-mini 1,7 %
- OpenAI-GPT-4-Turbo 1,7%
- OpenAI-GPT-4 1,8%
- OpenAI-GPT-3.5-Turbo 1,9%
- DeepSeek-V2.5 2,4%
- Microsoft Orca-2-13b 2,5%
- Microsoft Phi-3.5-MoE-instruct 2,5%
- Intel Neural-Chat-7B-v3-3 2,6%
- Alibaba Cloud Qwen2.5-7B-Intruct 2.8%
- AI21labs Jamba-1.5-Mini 2.9%
- Snowflake-Arctic-Instruct 3.0%
Modely od OpenAI dominujú v rebríčku – ich varianty GPT-4 dosahujú halucinačné miery medzi 1,5 % a 1,8 %. No prekvapením je čínske Zhipu AI, ktoré obsadilo prvé miesto s najnižšou mierou halucinácií. Veľmi dobre si vedie aj model Google Gemini 2.0, ktorý má rovnakú presnosť ako Zhipu AI.
Neprehliadni
Prečo menšie modely excelujú?
Na prvý pohľad by sa mohlo zdať, že väčšie modely budú vždy presnejšie. Avšak menšie modely, ako napríklad OpenAI-o1-mini alebo Zhipu AI, dokazujú, že to nie je pravidlom. Menšie modely sú jednoduchšie, rýchlejšie a lacnejšie na prevádzku, no stále dokážu ponúknuť vysokú presnosť pri špecifických úlohách. Napríklad model Mistral 8x7B sa v iných štúdiách ukázal ako veľmi spoľahlivý, pričom zároveň generuje menej halucinácií.
Menšie modely majú výhodu aj v tom, že sú menej náročné na výpočtový výkon. To znamená, že ich môžeš použiť na menších zariadeniach alebo v prostrediach s obmedzenými zdrojmi.
Ako to ovplyvní budúcnosť AI?
Halucinácie nie sú len drobný problém, ich eliminácia je kľúčová. Predstav si, že AI nesprávne diagnostikuje pacienta alebo dá právne rady, ktoré nie sú pravdivé. Presne preto firmy, ako Google, OpenAI či Microsoft, investujú miliardy dolárov do zlepšenia presnosti svojich modelov.
Google Gemini 2.0, ktorý je v rebríčku na druhom mieste, má mierne lepšie výsledky než GPT-4 od OpenAI. Tento model ukazuje, že sa veľké korporácie čoraz viac sústredia na presnosť, a to nielen pre najväčšie modely, ale aj pre ich menšie varianty.
Aj keď veľké modely budú mať vždy svoje miesto, menšie a špecializované modely budú hrať kľúčovú rolu v aplikáciách, kde je potrebná rýchlosť a dostupnosť.
Halucinácie v AI sú vážnym problémom, no pokrok je očividný. Modely ako Zhipu AI či OpenAI-o1-mini ukazujú, že dokonalosť sa dá dosiahnuť aj bez gigantických zdrojov. Pre bežného užívateľa to znamená, že AI nástroje budú nielen dostupnejšie, ale aj spoľahlivejšie. A keďže tieto technológie neustále napredujú, môžeme sa tešiť na ešte presnejšie a efektívnejšie riešenia.
Komentáre