03.06.2013 Views

Pobierz Podręcznik - Przedsiębiorczy Uniwersytet - Instytut Badań ...

Pobierz Podręcznik - Przedsiębiorczy Uniwersytet - Instytut Badań ...

Pobierz Podręcznik - Przedsiębiorczy Uniwersytet - Instytut Badań ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Komputerowa synteza mowy jako narzędzie „otwierania świata niewidzących”. Studium przypadku Ivo Software sp. z o.o.<br />

waniem czy edytorami. Chcieliśmy robić coś, co by nas interesowało i było także<br />

przydatne innym”.<br />

Tworzenie syntezatora mowy nie jest zadaniem prostym. Początkowo lektor czyta<br />

kilkadziesiąt tysięcy zdań, które zawierają wszystkie możliwe zestawienia głosek.<br />

Znalezione w wyniku wieloetapowej analizy dane potrzebne do syntezowania zdania<br />

przekazywane są do bloku generowania sygnału mowy. Podczas generowania sygnału<br />

mowy z bazy danych zawierającej próbki wszystkich głosek (a ściślej mówiąc przejść<br />

między głoskami, tzw. difonów) wybierane są kolejne przejścia międzygłoskowe.<br />

Dobór ich następuje na podstawie ciągu głosek reprezentujących tekst. Złożony z kolejnych<br />

próbek sygnał mowy jest modyfikowany zgodnie z informacjami o prozodii,<br />

otrzymanymi w wyniku przetwarzania tekstu. Zmieniana jest długość trwania poszczególnych<br />

głosek oraz ich częstotliwość krtaniowa. Dopiero po takiej modyfikacji<br />

głos nabiera naturalnego brzmienia, stając się jednocześnie łatwo zrozumiałym. Największym<br />

wyzwaniem w stworzeniu dobrego syntezatora mowy jest utrzymanie naturalności<br />

głosu nawet w sytuacji, gdy program skleja słowo z pojedynczych dźwięków.<br />

O skali trudności stworzenia tego typu programu świadczyć może m.in. to, że syntezator<br />

widząc np. liczbę 945 wiedział, że ma ją odczytać, nie jako „dziewięć cztery pięć”,<br />

ale jako „dziewięćset czterdzieści pięć”. Podobnych problemów dostarczają kwestie:<br />

liczb dziesiętnych, ułamków, czy też znaków symboli matematycznych.<br />

Powyższe czynniki skutkowały tym, że do początku XXI w. zagadnienie syntez<br />

mowy nie było zbyt popularne wśród firm komercyjnych. Wiązało się to z faktem,<br />

że główne zastosowanie syntezatorów mowy widziano w pomocy dla osób niewidomych,<br />

a z punktu widzenia rynkowego nie była to specjalnie atrakcyjna grupa<br />

potencjalnych klientów.<br />

7.2. Początki działalności<br />

Łukasz Osowski kończąc studia pracował już w pierwszym polskim portalu –<br />

stworzonym przez wywodzących się z Politechniki Gdańskiej doktorantów tej uczelni<br />

– Wirtualnej Polsce. Zajmował się tam przygotowaniem, opierającego się na wolnym<br />

oprogramowaniu, syntezatora mowy SPIK. W owym czasie na polskim rynku dostępny<br />

był jeden syntezator mowy, którego jakość była daleka od doskonałości.<br />

Firma IVO rozpoczęła swą działalność w 2001 r. Początek to praca po 15 godzin<br />

dziennie. Po pięciu miesiącach takiej pracy – we wrześniu 2001 r. – gotowy<br />

był pierwszy produkt SPIKER. Nie był on produktem doskonałym, ale oferował<br />

znacząco większą funkcjonalność aniżeli dotychczas stosowane w Polsce rozwiązanie.<br />

SPIKER umożliwiał osobom niewidomym samodzielną obsługę komputera.<br />

Program doczekał się pięciu aktualizacji, a jego wersja dla urządzeń mobilnych<br />

Speaker Mobile przyniosła firmie medal „Gdynia bez Barier”.<br />

Mając gotowy produkt dwaj twórcy programu wsiedli w samochód i w ciągu<br />

2 tygodni objechali całą Polskę prezentując swoje rozwiązanie podczas spotkań<br />

z członkami klubów zrzeszających osoby niewidome i niedowidzące (Polski<br />

368

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!