Místo herců umělá inteligence. Editor Hlasem umí převést texty do audia během vteřiny

Místo herců umělá inteligence. Editor Hlasem umí převést texty do audia během vteřiny

26. srp 2021 Zuzana Hübnerová 5 min

Možná působíte na několika zahraničních trzích a máte problém, že pro předabování jakéhokoliv produktového videa musíte hledat rodilé mluvčí. Nebo provozujete malou galerii a najímat si rodilé mluvčí na namluvení audioprůvodce je natolik drahé, že se musíte spokojit s tištěnou brožurou či popisky. To vše by chtěl změnit Šimon Bařák se svým projektem Hlasem. Uživatelsky přívětivý editor totiž umí s využitím umělé inteligence převést psaný text do lidské řeči. A to v takové kvalitě, že má posluchač mnohdy problém rozeznat technologii od skutečného člověka. Hlasem zatím mluví česky, anglicky, německy a francouzsky a v rámci testovací fáze si mohou zájemci vytvořit nahrávku zcela zdarma. 

Šimon Bařák je webdesignér a programátor. Podle jeho slov ho ale nejvíc baví tyto světy propojovat a vytvářet digitální produkty. Když před třemi lety na Vysokém učení technickém v Brně dostal za úkol nadesignovat nějaký digitální produkt a vytvořit z něj vlastní dlouhodobý projekt, vzpomněl si na svou zkušenost s učením. „V té době jsem začal hodně poslouchat audioknihy. Zároveň jsem zjistil, že si mluvené slovo mnohem lépe pamatuju. Začal jsem si proto učební materiály převádět pomocí nástrojů na převod textu do řeči a učil se pomocí poslechu,” popisuje Bařák a dodává, že jemu jako dyslektikovi také pomáhá, když napsaný text slyší nahlas. „Špatně čtu písmena a nevidím některé chyby. Takže mi je pomáhá identifikovat, když někdo psaný text přečte nahlas,” říká.


Původně pomáhal převod textu do mluvené řeči studentovi VUT s učením

Tehdy si řekl, že by mohl vytvořit nástroj, který vezme například pdf soubor, jakékoliv obrázky převede do prezentace a texty do mluveného slova.Začal jsem na tom pracovat, ale postupně jsem celý nápad osekával a zjednodušoval, až jsem došel k podstatě. A to je uživatelsky přívětivý editor pro generování řeči,” vypráví Bařák. 

Stopka kvůli chybějícímu českému datasetu

Původně si myslel, že jeho produkt bude určený zejména zahraničním trhům. „V angličtině to totiž fungovalo velmi dobře. Problém ale byl, že neexistoval kvalitní dataset pro češtinu,” vysvětluje. To ho dokonce přimělo na chvíli celý projekt zastavit. „Před půl rokem jsem ale zjistil, že Microsoft nabízí službu zvanou Cognito, v rámci které poskytuje i převod řeči do češtiny. A zcela mě nadchla ta kvalita,” přibližuje Bařák, který se proto rozhodl Hlasem postavit právě na Microsoft Cognito. „Výhoda mého editoru je, že zatímco Microsoft vyžaduje měsíční předplatné, na Hlasem zaplatíte pouze za nahrávku, kterou si tam vytvoříte. Například nějakým menším galeriím, muzeím či jednotlivcům se tak vyplatí spíše zaplatit za konkrétní nahrávku, než platit paušál,” dodává s tím, že zatím je program v testovací verzi a, zájemci si proto mohou nechat na e-mail zaslat kód, se kterým nahrávku získají zdarma. 

Hlasem funguje jednoduše. Do okna textového editoru napíšete text. Zvolíte si, zda ho má přečíst muž či žena a v jakém jazyce nahrávku vytváříte. Pokud se vám některá věta zdá při poslechu příliš dlouhá či kostrbatá, jednoduše ji přepíšete. A v momentu, kdy jste spokojeni, si necháte vygenerovat audionahrávku ve formátu mp3. 

Šimon Bařák cílí především na již zmíněná muzea a galerie či turistická centra a tvůrce výukových videí.Ačkoliv je hlas příjemný a přirozený, pořád je spíše zpravodajský či informativní. Nehodí se proto příliš pro načítání nějakých dramatických textů, pohádek, kde je potřeba modulovat, dělat pauzy. Ani pro dlouhé formáty, kde se za chvíli umělý hlas omrzí,” upozorňuje Bařák. 


Šimon Bařák v Hlasem vytvořil ukázku převodu části rozhovoru do audia. 

Nástroj už uživatelé otestovali v několika reálných projektech. „Například to použili pro konferenci v Praze, kde organizátoři nahráli základní pokyny a informace ve všech dostupných jazycích. Pouštěli to pak návštěvníkům ve smyčce,” přibližuje jedno z úspěšných použití Bařák. 

Myslí si ale, že profesionální herci a dabéři se o práci bát nemusejí. Například v Británii už existují startupy, které řeší modulaci uměle vytvořených hlasů. Využití nachází například v herním průmyslu. Pravděpodobnější scénář budoucnosti je ale podle něj ten, že profesionálové budou mít vytvořené datasety založené na svém hlase. „Díky tomu pak budou moct editovat text místo vlnových délek. To znamená, že nebudou muset danou část namluvit znovu, ale bude stačit ji dopsat. Když například v podcastu zjistím, že jsem zapomněl zmínit důležitou věc, připíšu dvě věty a editor je mým hlasem vygeneruje. Uživatel tak ani nepozná, že to tam bylo přidáno až zpětně,” nastiňuje v závěru Bařák, který by chtěl Hlasem spustit v placené verzi do konce tohoto roku.  

Foto a video: archiv Šimona Bařáka 

Zuzana Hübnerová

Vystudovala žurnalistiku a HR v Česku i ve Švédsku. Působila v Deníku či v České televizi. Nyní se věnuje nastavování interní komunikace ve firmách a píše o tom, co se děje ve startupech i ve vědě.

Další články autora →

Líbil se vám článek? Sdílejte jej!
Přečtěte si dále
Související témata: Kancelář, Startupy, Technologie
Nenechte si uplavat nové články!
Váš e-mail
Sledujte nás:
Další články