Môžeš veriť umelej inteligencii v otázkach zdravia? Toto by si mal vedieť predtým, než pôjdeš za AI s nejakým problémom
Výskum ukazuje, že umelá inteligencia exceluje v testoch, no v reálnych rozhovoroch medzi lekárom a pacientom čelí vážnym výzvam.
Umelá inteligencia (AI) si získava čoraz väčšiu pozornosť v zdravotníctve, kde jej potenciál možno využiť na zjednodušenie práce lekárov, triedenie pacientov, získavanie anaméz či poskytovanie predbežných diagnóz. Veľká časť tejto technológie spočíva v tzv. veľkých jazykových modeloch, ako je ChatGPT. Tieto nástroje už často využívajú aj samotní pacienti, aby lepšie porozumeli svojim symptómom alebo výsledkom lekárskych testov.
Ale ako dobre dokáže umelá inteligencia fungovať v situáciách, ktoré verne napodobňujú skutočné interakcie medzi lekárom a pacientom? Nový výskum z Harvard Medical School a Stanford University odhalil, že odpoveď je: nie príliš dobre.
Nový rámec na hodnotenie schopností AI v medicíne
Tím vedcov navrhol hodnotiaci systém nazvaný CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine – Rámec hodnotenia konverzačného uvažovania pre testovanie v medicíne), ktorý má zlepšiť spôsoby, akými testujeme schopnosti AI v realistických medicínskych scenároch. Výsledky ich štúdie, publikovanej v Nature Medicine, ukázali, že AI modely zvládajú dobre štandardizované medicínske testy, ale majú problémy s diagnostikou na základe voľných, konverzačných poznámok.
CRAFT-MD je navrhnutý tak, aby simuloval skutočné interakcie medzi pacientom a lekárom. Systém testuje schopnosť AI zbierať informácie o symptómoch, liekoch a rodinnej anamnéze a na ich základe stanoviť diagnózu. Na tento účel používa AI agenta, ktorý vystupuje ako pacient, odpovedá prirodzeným štýlom a poskytuje informácie vo voľnej forme. Druhý AI agent hodnotí presnosť diagnózy, ktorú model stanovil, a výsledky potom overujú odborníci.
Hlavné zistenia štúdie
Vedci otestovali štyri rôzne jazykové modely na 2 000 klinických situáciách z rôznych oblastí medicíny. Aj keď AI modely dosahovali dobré výsledky pri riešení testových otázok, ich presnosť dramaticky klesla v reálnejších scenároch, kde bolo potrebné aktívne klásť otázky a spracovávať informácie zo začiatku neštruktúro-vaných rozhovorov.
Neprehliadni
Medzi hlavne problémy patrilo, nedostatočné kladenie otázok na získanie dôležitých informácií. Zlyhanie pri zapisovaní a syntéze roztrieštených údajov. Problémy pri interpretácii otvorených odpovedí namiesto jednoznačných odpovedí z testov. Nižšia presnosť pri vedení konverzačných rozhovorov v porovnaní s upravenými scenármi.
Odporúčania pre zlepšenie AI v medicíne
Na základe týchto zistení autori štúdie navrhli viacero odporúčaní pre vývojárov aj regulátorov, ktorí hodnotia a schvaľujú tieto nástroje. Používať voľné a otvorené otázky pri navrhovaní, tréningu a testovaní AI modelov, aby sa lepšie odrážala realita. Testovať schopnosť AI klásť správne otázky a extrahovať kľúčové informácie. Navrhovať modely schopné spracovávať viacnásobné rozhovory a kombinovať informácie z viacerých zdrojov. Integrácia textových aj netextových údajov, ako sú obrazy či EKG záznamy. Zohľadniť neverbálne podnety, napríklad mimiku, tón hlasu alebo reč tela.
Štandardizované testovanie, ako je CRAFT-MD, by mohlo slúžiť ako efektívny spôsob prvotného hodnotenia a pomohlo by zlepšiť diagnostické schopnosti AI pred ich zavedením do praxe. CRAFT-MD umožňuje rýchlejšie testovanie s nižšími nákladmi ako čisto ľudské hodnotenie, ktoré je časovo náročné a vyžaduje si zdroje.
Ak chceme, aby sa AI nástroje stali dôveryhodnou súčasťou klinickej praxe, musíme ich nielen vylepšiť, ale aj hodnotiť spôsobom, ktorý reflektuje skutočné potreby pacientov a lekárov. Ako hovorí doktorka Roxana Daneshjou zo Stanfordu: „CRAFT-MD vytvára rámec, ktorý lepšie zrkadlí realitu a posúva testovanie AI modelov v zdravotníctve na novú úver.“
Komentáre