Umělá inteligence není jen chatGPT. Jedním z jejích dalších nástrojů je Text-to-Speech neboli převod textu na mluvené slovo. Ten přinesl do světa AI naprostou revoluci, která usnadňuje komunikaci. Jak ale docílit toho, aby výsledné audio znělo co nejpřirozeněji a neobjevovaly se v něm chyby?
Představte si umělou inteligenci jako člověka, pro kterého píšete proslov. Háček je, že tenhle člověk žije delší dobu mimo civilizaci. Je proto možné, že nezná spoustu cizích slov, oblíbených zkratek a intonuje trochu jinak, než jste zvyklí.
Jenže vy potřebujete, aby jeho projev byl co nejpřirozenější. A tak mu do textového zadání vložíte úplně vše, a to doslova tak, jak to chcete.
Chcete, aby někde v projevu udělal pauzu? Sdělte mu to! Bude mít v textu cizí slovo, které nezná? Napište mu ho foneticky, jako když jste se učili slovíčka vy sami. Ale dost teorie. Pojďme si to ukázat!
Žádný mluvený projev neprobíhá souvisle na jeden nádech. Dost často totiž potřebujeme vložit důraz na nějaké konkrétní slovo nebo prohlášení. V praxi to děláme tak, že slovo nebo větu oddělíme od zbytku sdělení krátkou pauzou. Jenže jak toho docílit u AI?
Aby při převádění textu na audio vznikla pauza, stačí vybrané slovo oddělit pomlčkou - slovo -. Pokud chcete, aby pauza byla delší a výraznější, můžete použít pomlčky dvě -- slovo --. V praxi to pak v psaném textu bude vypadat takto:
To jídlo chutná - divně -.
Ten člověk byl trochu -- promiňte mi ten výraz -- šílený.
Další možností, jak docílit odmlky, je použití tří teček „…slovo…“. Ty generátoru naznačí, že má do textu vložit pauzu. V textu to pak vypadá takhle:
Honza mi prostě... lhal
Ten nápad byl... naprostý nesmysl
Když však pro vytvoření pauzy použijete tři tečky, do AI hlasu se často vloží také jakási váhavost nebo nervozita. To může v některém kontextu znít dobře. Pokud však jde o převod formálních dokumentů do mluveného slova, tato intonace nemusí být vhodná.
Proto je dobré vždy vyzkoušet obě zmíněné možnosti a podle kontextu vybrat vhodnější variantu.
Předchozí možnosti jsou pro základní využití dostačující. Pokud však chcete, aby výsledné audio znělo dokonale, dejte AI pokyn, kterému jasně rozumí. Použitím <break time="1.5s" /> získáte přesnou a naprosto přirozeně znějící pauzu. Textové zadání vypadá v tomto případě takto:
Dej mi chvilku na rozmyšlenou. <break time="1.0s" /> Ano, to by šlo.
Délku pauzy si můžete vždy specifikovat podle potřeby. Umělá inteligence zvládne udělat pauzu až do délky 3 sekund.
Řeč umělé inteligence zní přirozeně. Proto není třeba jí zadávat pauzu mezi každým slovem nebo větou. Stačí ji použít jen v případě, že na něco potřebujete vložit opravdu intenzivní důraz.
Přehnané používání pauz může naopak vést k nestabilitě AI. Ta se může projevit zrychlením mluveného projevu, přidáváním nechtěných zvuků nebo rušivým šumem.
AI si s cizími slovy v textu běžně velmi dobře poradí. Pokud však narazíte na slovo, které vyslovuje špatně, udělejte jednoduchou věc: napište dané slovo foneticky, tedy přímo tak, jak se vyslovuje. Například:
crazy → kreizi
face to face → feis tu feis
Kromě toho můžete používat také další možnosti, jako jsou jednoduché uvozovky kolem písmena, apostrofy nebo velká písmena.
Pokud například napíšete větu: „Studuju kynologii.“ může se stát, že druhé písmeno „i“ ve slově „kynologii“ umělá inteligence spolkne. Pokud ho však napíšete velkým písmem, umělá inteligence to pochopí:
Studuju kynologii. → Studuju kynologIi
Umělá inteligence rozumí kontextu a dost často umí intonaci přizpůsobit danému sdělení. AI ale ne vždy pozná vtip, sarkasmus nebo potřebnou emoci. A jak ji tedy správně navést?
Aby inteligence vyjádřila vše přesně tak, jak potřebujete, je dobré použít dialogové navádění. To vypadá jako běžná přímá řeč v knihách. Výsledné audio pak bude lépe kopírovat emoce a náladu daného sdělení. Třeba takto:
„Byl jsi v tom obchodě?“ zeptala se nervózně.
„Řekl jsem, že dnes nemám čas!“ zakřičel vztekle.
Nevyhovuje vám žádný z AI hlasů a chystáte se klonovat svůj vlastní? Pak pro vás máme tip! Na základě výsledků několika testů se ukázalo, že použití jediného dlouhého vzorku pro klonování přineslo kvalitnější hlas, než když bylo použito více krátkých vzorků.
Ačkoliv AI spoustu zkratek přelouská, může je nesprávně převést na audio. Proto je vždy pište slovem. Například:
30km běh → třicetikilometrový běh
Sleva 5 % → sleva pět procent
20mm rozdíl → dvacetimilimetrový rozdíl
Tímto způsobem se nejlépe vyhnete nepřesnostem a špatné výslovnosti. Stejnou výzvu někdy představují číslice. Proto i zde platí, že je lepší je napsat slovem.
V 18 h → V šest hodin
Skončil na 3. místě → Skončil na třetím místě
Ještě nemáte svůj účet u Editee? Vyzkoušejte si převod textu na audio s naší 5denní bezplatnou verzí zcela zdarma!
Copyright 2024 Editee.com, všechna práva vyhrazena.
Editee je registrovaná ochranná známka společnosti Deeply AI Software s.r.o.
Tato webová stránka ukládá soubory cookies. Používáním této stránky s tímto vyjadřujete souhlas. Podrobnosti o účelu a rozsahu zpracování naleznete v odkazu Cookies v Důležitých informacích. Pokud s ukládáním nesouhlasíte, opusťte, prosím, stránku.