Broušení jazyků
V únoru 2022 zemřela 93letá Cristina Calderón Harbanová, poslední mluvčí chilského jazyka Yagán. Smrtí 97letého Edwarda „Neda“ Maddrella zanikla roku 1974 manština, jazyk používaný na ostrově Man. Takových vyhynulých jazyků je 330, přitom stejný osud hrozí v tomto století přibližně stejnému množství jazyků. Pokud nic neuděláme, toto kulturní bohatství lidstva zmizí v nenávratnu.
Snaha umožnit malým jazykům rovnocenné použití jazykových technologií naráží na limity současných modelů umělé inteligence pro automatické rozpoznávání řeči, vznikajících zpravidla tréninkem na záznamech milionů hodin mluvené řeči a jejich přesném přepisu do textu. Je to však příliš komplikované a drahé. Proto vědecko-technologické skupiny s pomocí veřejných prostředků hledají cestu, jak tento handicap překlenout. Jedna z nich je na Edinburské univerzitě a soustřeďuje se na výzkum jazyků „globálního jihu“. Jejím členem je počítačový vědec Ondřej Klejch.
Jak vyplývá z celosvětových statistik, kriticky ohrožených jazyků s méně než deseti mluvčími je v současnosti 313. Dají se ještě zachránit? — Jde o to, jak definujeme záchranu. Jeden z důvodů, proč vyvíjíme nové jazykové technologie, je dokumentace ohrožených jazyků. Jedna ze skupin Edinburské univerzity, zaměřená na generování řeči, má díky kanadským kolegům přístup k domorodému národu Saanichů, jejichž jazykem SENĆOŦEN mluví posledních sedm rodilých mluvčích. Pro výzkum to má zajímavé důsledky, protože v rámci výzkumu je třeba počítačem generovanou řeč následně hodnotit, aby bylo zřejmé, jak dobře rodilým mluvčím zní. Od sedmičlenné skupiny je spektrum názorů velmi omezené. Vysoký věk těchto osob navíc čas pro získání zpětné vazby velmi limituje.
Vaše skupina si pro výzkum vybrala xhoštinu – jeden z jedenácti úředních jazyků Jihoafrické republiky, jímž mluví až 20 milionů lidí. I takto velký jazyk je ohrožený zmarem?
V tuto chvíli možná ne, ale jeho mluvčí svou mateřštinu používají jinak než my češtinu. Ve svých telefonech mají nainstalovánu aplikaci WhatsApp, jíž si místo textových zpráv posílají výhradně hlasové záznamy.1) Když se chtějí vrátit k nějaké nahrávce, nezbývá jim než si všechno znovu poslechnout. Představte si, že by čeština neměla žádnou psanou podobu, jel byste autem a zaujala by vás informace z vysílání rozhlasu. Po příjezdu domů byste se k ní chtěl vrátit, ale neměl byste jak – nikde žádný zápis, abyste v něm vyhledával podle klíčových slov. Zůstalo by jen to, co jste si zapamatoval z vysílání. Napadlo nás tedy vyvinout pro xhoštinu nástroj, který by nahrávky v telefonech přepsal, aby uživatelé mohli zpětně identifikovat obsah a vyhledávat v něm.
Nebylo by jednodušší, kdyby lidé pro komunikaci xhoštinou používali rovnou textové zprávy?
Jistě, ale lokalizace klávesnic pro jazyk jsou těžkopádné, proto mluvčí používají tento jazyk takřka výhradně v mluvené podobě. Na internetu jsem sám našel jen pár milionů xhoských slov, což je opravdu žalostně málo. Navíc texty ani nebyly standardizované nějakými jednotnými pravidly jako třeba čeština. Ukázalo se to později při práci s komunitou z předměstí Langa v jihoafrickém Kapském Městě, v níž se tímto jazykem běžně mluví. Když jsme se ptali pěti různých lidí, jak by napsali jednu větu, dali nám pět dramaticky rozdílných odpovědí.