V Ústave informatiky SAV skúmajú, ako môžu technológie rozpoznávania a syntézy reči pomáhať v zdravotníctve. Róbert Savo predstavil projekty, ktoré hodnotia reč a hlas pri odhaľovaní neurodegeneratívnych ochorení a posúvajú komunikáciu na úroveň sociálnych robotov. Cieľom nie je nahradiť lekárov, ale poskytnúť im rýchle a presné podklady.
Od rozpoznávania reči k sociálnym robotom
Rozpoznávanie reči prevádza hovorené slová na text, syntéza je opačný smer – z textu vytvára prirodzene znejúci hlas. Spojením týchto dvoch technológií vzniká základ pre komunikáciu medzi človekom a strojom, ktorá má byť pohodlná a zrozumiteľná. Práve takto chápaná “prirodzená” komunikácia je jadrom sociálnej robotiky, kde stroj vedie dialóg ľudským spôsobom.
Tieto nástroje tím využíva aj pri podpore diagnostiky neurodegeneratívnych ochorení. Vďaka analýze hlasu a reči sa dajú zachytiť jemné zmeny, ktoré si človek bežne nevšimne. Výsledkom sú modely, ktoré pomáhajú odhaliť riziko Alzheimerovej či Parkinsonovej choroby alebo miernej kognitívnej poruchy.
Screeningová aplikácia EVA a rozhovor s robotom
Skončený projekt priniesol aplikáciu EVA slúžiacu na rýchly skríning. Používateľ v nej pomenúva jednoduché obrázky aj jeden komplexný, zatiaľ čo systém analyzuje nahrávku z hľadiska akustických a jazykových znakov. Na konci dostane informáciu, či je všetko v poriadku, alebo či by mal vyhľadať odborníka. EVA teda neudáva diagnózu, ale cielene odporúča ďalší krok.
Najnovší posun priniesla sociálna robotika: pacient už neťuká do mobilu, ale rozpráva sa s robotom. Mikrofón zachytí reč, rozpoznávač ju prevedie na text, dialógový manažér vyberie odpoveď a syntéza ju prečíta s artikuláciou pier. Skúsenosti z testov ukazujú, že ľudia vnímajú tento spôsob komunikácie ako príjemný a prirodzený, čo potvrdzuje aj prevažujúca pozitívna spätná väzba. Pre mnohých účastníkov bol rozhovor s „plastovou hlavou“ prekvapivo uvoľnený a zrozumiteľný.
Čo sleduje AI v reči a prečo rozhoduje lekár
Umelá inteligencia meria napríklad reakčné časy na úrovni stotín až tisícin sekundy a sleduje plynulosť reči. Vie presne zrátať pauzy, zaváhania a vyhodnotiť intonáciu, teda melodiku hovorenia. Posudzuje aj slovnú variabilitu, semantickú nasýtenosť a mieru „barličiek“ v rozprávaní, pričom dôležitú rolu zohrávajú aj akustické parametre hlasu.
Tieto zásadné ukazovatele sa dajú vyhodnocovať v reálnom čase a lekár tak dostáva prehľad o konkrétnom výkone v danej úlohe. Modely vznikajú z dostatočného množstva anotovaných dát zdravých a chorých, no ich úlohou je podpora, nie konečný verdikt. Tím zdôrazňuje, že AI nemá rozhodovať binárne „zdravý/chorý“. Diagnózu stanovuje lekár na základe faktov, ku ktorým technológia dodá presné a rýchle merania.