Modulator głosu Ivona – jak zmieniać wymowę słów polskich i obcojęzycznych w syntezie mowy.

Modulator głosu Ivona

Rozwiązanie umożliwiające narzucenie syntezatorowi mowy przeczytanie danego wyrażenia w sposób określony przez zapis fonetyczny. Modulacja głosu syntezatora mowy jest możliwa dzięki wykorzystaniu komend (znaczników, ang. tags) SSML.

Speech2Go online

usługa sieciowa zapewniająca zamianę dowolnego tekstu na wypowiedź głosową w formie pliku audio. Powstałe w ten sposób pliki można wykorzystać do dowolnych celów, również komercyjnych (do wykonania nagrań w centralce telefonicznej, jako głos lektora pod filmami Youtube, do słuchania książek, które to nagrania można także rozpowszechniać).



Często nagrania wykonywane przez Państwa na stronie usługi Speech2Go zawierają specyficzne wyrażenia, np. obcojęzyczne lub branżowe trudne do przeczytania dla syntezatora. Bywa też, że w tekście występują homonimy, które powinny być czytane odmiennie (np. cis – drzewo i nuta).

Kiedy syntezator mowy sam nie potrafi rozwiązać takiej sytuacji z pomocą przychodzą znaczniki (z ang. tagi) SSML. Tagów SSML jest wiele i można o tym przeczytać na wielu stronach internetowych, jednak naszym klientom będzie potrzebna jedynie jedna komenda SSML informująca syntezator o tym, co ma teraz przeczytać. Właśnie tę komendę chcemy Państwu przybliżyć. Jeżeli syntezator czyta jakieś slowo inaczej niż byśmy chcieli - wystarczy zamiast kłopotliwego wyrazu w tekście wprowadzić odpowiednią komendę.

Komenda SSML do modulowania głosem Ivona na przykładach

Znajdźmy przykład polskiego wyrazu, który powinien być czytany lepiej:

(tagi, które tu użyjemy zostaną rozpoznane na stronie Moje nagranie/Nowe nagranie tutaj: https://s2g-online.pl/cloud/step/1)

‘farmaceuta’ <phoneme alphabet='ipa' ph='ˌfarmaˈʦ̑ɛwta'/>

przykład obcego wyrazu czytanego polskim syntezatorem, który powinien być czytany lepiej:

‘main station’ <phoneme alphabet='ipa' ph='meɪn ˈsteɪʃən'/>

Każde słowo zapisane z pomocą komendy SSML musi posiadać parametr "ph".

Skąd wziąć zapis fonematyczny, który powinien znaleźć się w parametrze "ph" tej komendy?

Najpewniejszym źródłem dla języka polskiego okazał się Wikisłownik: pl.wiktionary.org/wiki/farmaceuta

Poza wskazanym powyżej, wiele innych słowników zawiera zapis fonematyczny. Istnieją też konwertery. Radzimy szukać zapisu IPA (zamiast parametru ‘ipa’ w tagu SSML można użyć też innych zapisów fonematycznych – np. X-SAMPA).

Użycie modulatora głosu online, czyli zamiana źle wymawianego słowa na komendę podobną do tej powyżej powinna dać oczekiwane rezultaty. W miarę zdobywania doświadczenia będą mogli Państwo w dużym zakresie modyfikować i ulepszać wymowę

Wskazane rozwiązania Państwa problemów ze specyficzną wymową jest najbardziej uniwersalne i zgodne ze sztuką. Uniwersalne, bo powinno działać z każdym głosem.

W systemie Speech2Go online (s2g-online.pl) jest możliwość testowania nagrań - pierwsze 200 znaków tekstu można przetestować bez utraty kredytów 3 razy w ciągu 10 minut. Radzimy wypróbować modulator głosu IVONA!