Syntéza řeči nebo text-to-speech (TTS) pohání Cabinet of Wonders a definuje kvalitu našeho audio průvodce.

Využíváme služby ElevenLabs, společnosti, která pomocí hlubokého učení (deep learning) vytváří přirozeně znějící syntetické hlasy. Nedávno vydala svůj nový hlasový model V3 a my jsme se rozhodli ho hned vyzkoušet!

Než se ponoříme do detailů, podívejme se na výsledek.

Porovnání modelů v2.5 a v3 v angličtině

Porovnání modelů v2 a v3 v češtině

Jak text-to-speech modely ovlivňují audio zážitek?

Stejně jako u všeho ostatního ve světě deep learningu a AI má i syntéza řeči své modely, které určují přesnost a celkovou kvalitu vyprávění.

Před touto změnou jsme pro české texty používali více než rok model ElevenLabs V2 a výsledky byly docela dobré. Měl ale své slabiny:

  • Pokud text má jména v různých jazycích, hlasy se často pokoušejí číst „cizí“ jména podle výslovnosti hlavního jazyka textu.
  • Kalendářní data jsou často vyslovována jako obyčejná čísla.
  • Číslovky jsou čteny krkolomně.
  • Zkratky a speciální symboly někdy matou TTS tak moc, že jenom vyslovuje nesrozumitelné zvuky.
  • Intonace je často nepřirozená a kazí posluchačský zážitek.

ElevenLabs zmiňuje tyto problémy ve svém článku. V různých jazycích se projevují různé potíže a v různé míře. Každopádně, nový model ElevenLabs V3 sliboval v těchto případech vyšší přesnost. To nás zaujalo!

Jak jsme modely vyhodnocovali?

Přesnost TTS je klíčovým faktorem při výběru hlasového modelu — a proto jsme ji důkladně testovali! Není to ale jediné kritérium. Generování každého zvukového vzorku zabírá čas i úložný prostor. Protože audio generujeme často a následně je ukládáme, zajímaly nás i tyto aspekty, abychom zajistili plynulý uživatelský zážitek a zbytečně neplýtvali úložištěm.

Z hlediska velikosti souborů jsme mezi modely nezaznamenali velký rozdíl. Generované zvukové ukázky pro naše vzorky měly u modelů V2 i V3 přibližně 1 MB na 1 000 znaků. To je rozumná velikost.

Z časového hlediska už ale určitý rozdíl existuje. Generování audia pomocí modelu V3 trvá 2 až 2,5x déle než u modelu V2, v průměru 40 vteřin na 1 000 znaků. To je poměrně výrazný rozdíl, který jsme museli zohlednit při rozhodování, které modely zvolit pro jednotlivé jazyky.

Jak jsme vybírali hlasy?

ElevenLabs má opravdu hodně hlasů a ze začátku může být těžké se v nich zorientovat. K dispozici jsou ale užitečné filtry: věk, pohlaví a jazyky, na kterých byly modely natrénovány. Některé hlasy mají navíc vlastní tarify, které ovlivňují cenu i rychlost generování.

Důležité je také zmínit, že stejné hlasy znějí u verzí V2 a V3 poměrně odlišně. Proto jsme se rozhodli nahradit všechny dosavadní hlasy novými (a dát jim nová jména).

ElevenLabs nabízí pro V3 několik desítek doporučených hlasů. Nemohli jsme je ale vybrat všechny, protože jsme měli ještě jeden důležitý požadavek: aby tyto hlasy zněly dobře nejen ve velkých světových jazycích, ale i v češtině.

Tedy jsme museli provést uživatelské testování, kterým jsme nakonec strávili celý týden. Dokola jsme poslouchali vygenerované ukázky. Kromě vyřazení hlasů, ve kterých čeština nezněla dost dobře, jsme také vyfiltrovali ty, které byly příliš rychlé nebo příliš pomalé, případně stylově nevhodné pro muzejní prostředí. A takových má ElevenLabs opravdu hodně.

Kde si nové hlasy poslechnout?

Nakonec jsme vybrali 12 nových dospělých hlasů, vyvážených z hlediska věku i pohlaví. Experimentálně jsme přidali také dva dětské hlasy (Lucy a Tommy). Jsou na ElevenLabs poměrně oblíbené, ale zatím nejsou dostatečně otestované v praxi. Budeme je sledovat!

Ukázky si můžete poslechnout přímo v naší galerii hlasů. Jde o namluvené texty pro typické muzejní exponáty a sami uslyšíte, jak velký rozdíl může hlas udělat v celkovém audiozážitku.

A co ta přesnost vyprávění?

Mluvili jsme o náročných věcech pro TTS systémy, jako jsou kalendářní data nebo speciální symboly. V kontextu muzejního prostředí jsou některé z nich (například letopočty) relevantnější než jiné (například SPZ). Nakonec jsme si vytvořili vlastní „jazykolamy“, kterými jsme hlasy důsledně otestovali.

Zde je jeden z nich:

Vítejte v galerii. Exponát pochází z 20. století, měří 29 × 22 × 10 cm a váží 3 kg. Teplota v místnosti je 21 °C. Autorem je Alfons Mucha, inspirovaný Paříží a Art Nouveau. Všimněte si zmínky o galerii Musée d'Orsay. Mucha psal o svém díle Paulu Gauguinovi, Františku Kupkovi a Augustu Rodinovi. Vstupné do muzea činí 300 Kč nebo 12,50 € (k 1.3.2026). Další informace najdete na adrese www.muzeum.cz nebo se obraťte na správkyni muzea, Ing. Janu Novákovou.

Jak je slyšet v ukázce výše, model V3 mnohé lépe zvládá kombinaci českých, anglických a francouzských jmen. Na druhou stranu, stále úplně nezvládá data.

Co dál?

Byl to hodně zajímavý a zábavný úkol! Zároveň nás ale po poslechu a vyhodnocování desítek hlasů docela bolely hlava i uši…

Technologie syntézy řeči dělá velké pokroky. Doufáme, že další aktualizace od ElevenLabs bude ještě vyladěnější. Rádi bychom také více zapojili AI do vyhodnocování ukázek. V současnosti si dobře poradí s technickými parametry (například frekvencí nebo poměrem pauz), ale zatím neumí spolehlivě ověřit samotnou přesnost výslovnosti.

Z nových hlasů máme velkou radost a těší nás, že díky nim můžeme dál zlepšovat návštěvnický zážitek v muzeích a galeriích.