Systém by mohli zdokonaliť až na preklad 100 jazykov.
Tím amerických vedcov navrhol systém so slúchadlami schopný tlmočiť niekoľko rečníkov naraz a zachovať vlastnosti hlasov rečníkov spolu so smerom, z ktorého prichádzajú. TASR informuje na základe správ zborníka Konferencie o ľudských faktoroch vo výpočtových systémoch (CHI 2025) a portálu Tech Xplore.
Počas niekoľkých uplynulých rokov sa objavilo niekoľko technológií sľubujúcich plynulý preklad a tlmočenie v reálnom čase, všetky však boli sklamaním. Okuliare od spoločnosti Meta napríklad fungujú iba pri jednom rečníkovi, ktorý musí skončiť, aby robotický hlas okuliarov začal tlmočiť. Tlmočenie tak neprebieha simultánne, ale konzekutívne.

Revolúcia v prekladateľstve
Vedci z Washingtonskej univerzity vyvinuli systém Spatial Speech Translation (Tlmočenie priestorovej reči), využívajúci bežne dostupné slúchadlá s potlačením okolitého hluku, vybavené mikrofónmi a pokročilé algoritmy. Tie odlišujú jednotlivých rečníkov v priestore, sledujú ich počas pohybu, ich výpovede prekladajú a následne výpovede prehrávajú s oneskorením dvoch až štyroch sekúnd.
Vedci čerpali inšpiráciu zo života. Tchuo-čchao Čchen, doktorand z UW, navštívil mexické múzeum, hoci španielčinu neovláda. V mobilnom telefóne si preto spustil aplikáciu, ktorá mu mala tlmočiť a mikrofón namieril v smere výkladu. Výsledok však bol absolútne nepoužiteľný, hoci hladina hluku v múzeu bola relatívne nízka.
„Ostatné tlmočnícke technológie vychádzajú z predpokladu, že hovorí iba jedna osoba. V skutočnosti však nemôžete mať iba jeden robotický hlas tlmočiaci viaceré osoby v miestnosti. Po prvý raz sa nám podarilo zachovať vlastnosti hlasu každej osoby v miestnosti a smer, z ktorého zaznieva,“ uviedol profesor Paul G. Allen z UW.
Systém možno vytrénovať na preklad až 100 jazykov
Systém SST prináša tri inovácie – bezprostredne po zapnutí deteguje počet rečníkov v interiéri alebo exteriéri, zachováva charakteristiky a hlasitosť hlasov a generované hlasy sledovaných rečníkov neustále upravuje podľa ich zmien pri pohybe. Prekladová aplikácia beží lokálne na zariadeniach s čipom Apple M2 – výskumníci sa chceli vyhnúť využitiu cloudu, pretože napodobňovanie hlasov môže vyvolávať obavy zo zneužitia osobných údajov.
Systém úspešne zvládol testy v desiatich interiérových a exteriérových prostrediach. Používatelia ho počas testu s 29 účastníkmi uprednostnili pred systémami, ktoré nesledovali rečníkov v pohybe.
Testeri počas inej skúšky uprednostňovali dekaláž tri až štyri sekundy, pretože výstup obsahoval menej chýb ako pri jedno- až dvojsekundovej dekaláži. Systém bol na účely štúdie testovaný na preklade zo španielčiny, nemčiny a francúzštiny do angličtiny, hoci predchádzajúci výskum dokázal, že ho možno vytrénovať na preklad približne 100 jazykov. Zatiaľ však zvláda iba bežný hovorový jazyk bez špecializovanej terminológie.