Z moderovania nenávistných komentárov sa pre mnohých správcov sietí stala neúnosná rutina. Tomáš Halás a tím skúsených IT odborníkov preto vytvorili aplikáciu Troll Wu, ktorá automaticky chráni diskusie v rôznych jazykoch. Vysvetľujú, ako systém funguje, prečo nejde o cenzúru a čo ukazujú dáta z praxe.
Ako funguje a v čom je iná
Základom je trénovanie vlastnej umelej inteligencie na veľkom množstve anonymizovaných komentárov, ktoré nezávisle označujú minimálne traja ľudia. Tím stavia na tom, že každý jazyk má vlastné nuansy, slang a zakrytý význam urážok, ktoré všeobecné modely nepoznajú. Preto pre jednotlivé jazyky spolupracujú s domácimi anotátormi, aby zachytili aj výrazy, ktoré cudzincovi uniknú. Výsledkom je presnejšie rozpoznávanie vulgarizmov a nenávistných prejavov v konkrétnych krajinách a varietach.
Aplikácia je oficiálne integrovaná s Facebookom, YouTube aj TikTokom a funguje v reálnom čase. Po udelení súhlasu klienta sa každý nový komentár odošle na vyhodnotenie, vlastný model (nie GPT) ho posúdi a v prípade porušenia pravidiel nahlási platforme, aby ho skryla. Celý proces trvá sekundy a škáluje sa na veľké objemy diskusií. Tým sa odbremeňuje ľudský tím a zrýchľuje sa reakcia na problémový obsah.
Moderovanie verzus cenzúra
Tvorcovia prirovnávajú moderovanie k pravidlám v reštaurácii: majiteľ zodpovedá za prostredie, kde sa hostia cítia bezpečne. Zásahy sa dejú iba pod stránkami klientov – ľudia môžu svoje názory šíriť inde, no nie porušovať pravidlá v cudzom „podniku“. Komentáre s nenávistným obsahom sa automaticky skrývajú a autor nedostáva upozornenie; je to zámer, aby sa toxická výmena ďalej nevalidovala. Niektoré prejavy sú navyše na hrane zákona, hoci v praxi bývajú málo postihované.
Štúdie aj skúsenosti z praxe ukazujú, že bez moderovania sa z diskusií strácajú ohrozené skupiny, ženy či deti a postupne aj „bežní“ diskutujúci. Testy u veľkých profilov v rôznych krajinách ukázali, že moderovanie neznižuje organický dosah, naopak vracia konverzácii vecnosť. Medzi klientmi sú firmy citlivé na bezpečnosť značky, štátne inštitúcie, športové kluby aj vyše 40 slovenských mimovládok, ktoré bývajú terčom útokov. Iniciatíva Bez hejtu navyše ukázala, že keby najväčšie profily systematicky moderovali, dramaticky by klesol objem nenávisti viditeľnej pre verejnosť, a k tejto výzve sa už pridali stovky subjektov.