Encyklopedyczny YouTube

    1 / 5

    Wprowadzenie do rozpoznawania mowy

    Rozpoznawanie mowy LANGMaster

    Napisy na filmie obcojęzycznym

Fabuła

Pierwsze urządzenie do rozpoznawania mowy pojawiło się w 1952 roku i potrafiło rozpoznawać liczby wypowiadane przez osobę. W 1962 roku na nowojorskich targach komputerowych zaprezentowano pudełko na buty IBM.

Komercyjne programy do rozpoznawania mowy pojawiły się na początku lat dziewięćdziesiątych. Korzystają z nich najczęściej osoby, które z powodu kontuzji ręki nie są w stanie napisać dużej ilości tekstu. Te programy (na przykład Dragon NaturallySpeaking (Język angielski) Rosyjski,Nawigator głosowy (Język angielski) Rosyjski) przetłumaczy głos użytkownika na tekst, odciążając w ten sposób jego ręce. Wiarygodność tłumaczenia takich programów nie jest zbyt wysoka, ale z biegiem lat stopniowo się poprawia.

Wzrost mocy obliczeniowej urządzeń mobilnych umożliwił tworzenie dla nich programów z funkcjami rozpoznawania mowy. Wśród takich programów warto zwrócić uwagę na aplikację Microsoft Voice Command, która umożliwia pracę z wieloma aplikacjami za pomocą głosu. Możesz na przykład odtwarzać muzykę w odtwarzaczu lub utworzyć nowy dokument.

Stosowanie rozpoznawania mowy staje się coraz bardziej popularne w różnych obszarach biznesu, np. lekarz w przychodni może postawić diagnozę, która od razu zostanie wpisana na elektroniczną kartę. Albo inny przykład. Z pewnością każdy choć raz w życiu marzył o tym, aby za pomocą głosu zgasić światło lub otworzyć okno. Ostatnio w interaktywnych aplikacjach telefonicznych coraz częściej stosuje się systemy automatycznego rozpoznawania i syntezy mowy. W takim przypadku komunikacja z portalem głosowym staje się bardziej naturalna, ponieważ wyboru w nim można dokonać nie tylko za pomocą wybierania tonowego, ale także za pomocą poleceń głosowych. Jednocześnie systemy rozpoznawania są niezależne od głośników, to znaczy rozpoznają głos dowolnej osoby.

Kolejnym krokiem w technologiach rozpoznawania mowy można uznać rozwój tzw. cichych interfejsów mowy (SSI). Te systemy przetwarzania mowy opierają się na odbiorze i przetwarzaniu sygnałów mowy na wczesnym etapie artykulacji. Ten etap rozwoju rozpoznawania mowy jest spowodowany dwoma istotnymi wadami współczesnych systemów rozpoznawania: nadmierną wrażliwością na hałas, a także potrzebą wyraźnej i wyraźnej mowy podczas dostępu do systemu rozpoznawania. Podejście SSI polega na zastosowaniu nowych czujników, na które nie wpływa hałas, jako uzupełnienie przetwarzanych sygnałów akustycznych.

Klasyfikacja systemów rozpoznawania mowy

Systemy rozpoznawania mowy są klasyfikowane:

  • według rozmiaru słownika (ograniczony zestaw słów, duży słownik);
  • w zależności od głośnika (systemy zależne od głośnika i niezależne od głośnika);
  • według rodzaju mowy (mowa ciągła lub oddzielna);
  • według przeznaczenia (systemy dyktowania, systemy dowodzenia);
  • zgodnie z zastosowanym algorytmem (sieci neuronowe, ukryte modele Markowa, programowanie dynamiczne);
  • według rodzaju jednostki strukturalnej (zwroty, słowa, fonemy, dyfony, alofony);
  • opiera się na zasadzie identyfikacji jednostek strukturalnych (rozpoznawanie po wzorcu, selekcja elementów leksykalnych).

W przypadku systemów automatycznego rozpoznawania mowy odporność na zakłócenia zapewniana jest przede wszystkim poprzez zastosowanie dwóch mechanizmów:

  • Zastosowanie kilku równoległych metod pracy do identyfikacji tych samych elementów sygnału mowy w oparciu o analizę sygnału akustycznego;
  • Równoległe niezależne wykorzystanie segmentowego (fonemicznego) i całościowego postrzegania słów w strumieniu mowy.

Metody i algorytmy rozpoznawania mowy

„...jest oczywiste, że algorytmy przetwarzania sygnału mowy w modelu percepcji mowy muszą korzystać z tego samego systemu pojęć i relacji, z jakiego korzysta dana osoba.”

Obecnie systemy rozpoznawania mowy budowane są w oparciu o zasady rozpoznawania [ przez kogo?] formularze uznania [nieznany termin ] . Dotychczas stosowane metody i algorytmy można podzielić na następujące duże klasy:

Klasyfikacja metod rozpoznawania mowy na podstawie porównania ze standardem.

  • Programowanie dynamiczne – tymczasowe algorytmy dynamiczne (Dynamic Time Warping).

Klasyfikacja kontekstowa. Realizując ją, wyodrębnia się ze strumienia mowy poszczególne elementy leksykalne – fonemy i alofony, które następnie łączy się w sylaby i morfemy.

  • Metody analizy dyskryminacyjnej oparte na dyskryminacji bayesowskiej;
  • Ukryty model Markowa;
  • Sieci neuronowe.

Architektura systemów rozpoznawania

Typowe [ ] Architektura systemów statystycznych do automatycznego przetwarzania mowy.

  • Moduł redukcji szumów i separacji sygnału użytecznego.
  • Model akustyczny – pozwala ocenić rozpoznawalność segmentu mowy pod względem podobieństwa na poziomie dźwięku. Dla każdego dźwięku budowany jest początkowo złożony model statystyczny opisujący wymowę tego dźwięku w mowie.
  • Model językowy - pozwala określić najbardziej prawdopodobne sekwencje werbalne. Złożoność budowy modelu językowego w dużej mierze zależy od konkretnego języka. Zatem w przypadku języka angielskiego wystarczą modele statystyczne (tzw. N-gramy). W przypadku języków silnie fleksyjnych (języków, w których występuje wiele form tego samego wyrazu), do których należy rosyjski, modele językowe budowane wyłącznie na podstawie statystyki nie dają już takiego efektu – potrzeba zbyt dużej ilości danych, aby wiarygodnie ocenić zależności statystyczne między słowami. Dlatego stosuje się hybrydowe modele języka wykorzystujące reguły języka rosyjskiego, informacje o części mowy i formie wyrazu oraz klasyczny model statystyczny.
  • Dekoder to element oprogramowania systemu rozpoznawania, który łączy dane uzyskane podczas rozpoznawania z modeli akustycznych i językowych i na podstawie ich kombinacji określa najbardziej prawdopodobną sekwencję słów, która jest końcowym wynikiem ciągłego rozpoznawania mowy.
  1. Przetwarzanie mowy rozpoczyna się od oceny jakości sygnału mowy. Na tym etapie określa się poziom zakłóceń i zniekształceń.
  2. Wynik oceny trafia do modułu adaptacji akustycznej, który steruje modułem obliczania parametrów mowy niezbędnych do rozpoznania.
  3. W sygnale identyfikowane są obszary zawierające mowę i oceniane są parametry mowy. Identyfikuje się cechy probabilistyczne fonetyczne i prozodyczne na potrzeby analizy składniowej, semantycznej i pragmatycznej. (Oceń informacje na temat części mowy, formy słowa i zależności statystycznych między słowami.)
  4. Następnie parametry mowy wchodzą do głównego bloku systemu rozpoznawania – dekodera. Jest to element dopasowujący wejściowy strumień mowy do informacji zapisanych w modelach akustycznych i językowych oraz określający najbardziej prawdopodobną sekwencję słów, która stanowi ostateczny wynik rozpoznania.

Oznaki mowy naładowanej emocjonalnie w systemach rozpoznawania

Cechy widmowo-czasowe

Cechy widmowe:

  • Średnia wartość widma analizowanego sygnału mowy;
  • Znormalizowane średnie widma;
  • Względny czas przebywania sygnału w pasmach widma;
  • Znormalizowany czas przebywania sygnału w pasmach widma;
  • Mediana wartości widma mowy w pasmach;
  • Względna moc widma mowy w pasmach;
  • Zmienność obwiedni widma mowy;
  • Znormalizowane wartości zmienności obwiedni widma mowy;
  • Współczynniki korelacji krzyżowej obwiedni widmowych pomiędzy pasmami widmowymi.

Znaki tymczasowe:

  • Czas trwania segmentu, fonemy;
  • Wysokość segmentu;
  • Współczynnik kształtu segmentu.

Cechy widmowo-czasowe charakteryzują sygnał mowy w jego istocie fizycznej i matematycznej w oparciu o obecność trzech rodzajów składowych:

  1. okresowe (tonalne) odcinki fali dźwiękowej;
  2. nieokresowe odcinki fali dźwiękowej (hałas, materiały wybuchowe);
  3. obszary niezawierające pauz w mowie.

Cechy widmowo-czasowe pozwalają odzwierciedlić oryginalność kształtu szeregów czasowych i widma impulsów głosowych u różnych osób oraz cechy funkcji filtrujących ich dróg głosowych. Charakteryzują cechy przepływu mowy związane z dynamiką restrukturyzacji narządów artykulacyjnych mówiącego i są integralną charakterystyką przepływu mowy, odzwierciedlającą oryginalność związku lub synchroniczność ruchu narządów artykulacyjnych mówiącego.

Znaki cepstralne

  • Współczynniki cepstralne częstotliwości Mel;
  • Współczynniki predykcji liniowej skorygowane o nierówną wrażliwość ucha ludzkiego;
  • Współczynniki mocy częstotliwości rejestracji;
  • Liniowe współczynniki widma predykcyjnego;
  • Liniowe współczynniki cepstrum predykcji.

Większość nowoczesnych systemów automatycznego rozpoznawania mowy skupia się na wyodrębnieniu odpowiedzi częstotliwościowej ludzkiego układu głosowego, pomijając charakterystykę sygnału wzbudzenia. Wyjaśnia to fakt, że współczynniki pierwszego modelu zapewniają lepszą separację dźwięku. Aby oddzielić sygnał pobudzenia od sygnału przewodu głosowego, stosuje się analizę cepstralną.

Funkcje amplitudowo-częstotliwościowe

  • Intensywność, amplituda
  • Energia
  • Częstotliwość tonu (FFR)
  • Częstotliwości formantów
  • Jitter - modulacja częstotliwości jittera tonu podstawowego (parametr szumu);
  • Shimmer - modulacja amplitudy tonu głównego (parametr szumu);
  • Radialna funkcja jądra
  • Operator nieliniowy Tygrys

Funkcje amplitudowo-częstotliwościowe umożliwiają uzyskanie estymatorów, których wartości mogą zmieniać się w zależności od parametrów dyskretnej transformaty Fouriera (rodzaj i szerokość okna), a także przy niewielkich przesunięciach okna w poprzek próbki. Sygnał mowy jest reprezentowany akustycznie przez drgania dźwiękowe o złożonej strukturze rozchodzące się w powietrzu, które charakteryzują się częstotliwością (liczbą drgań na sekundę), intensywnością (amplituda drgań) i czasem trwania. Funkcje amplitudowo-częstotliwościowe przenoszą niezbędne i wystarczające informacje dla osoby z sygnału mowy przy minimalnym czasie percepcji. Jednak wykorzystanie tych funkcji nie pozwala na ich pełne wykorzystanie jako narzędzia do identyfikacji mowy naładowanej emocjonalnie.

Znaki dynamiki nieliniowej

Dla grupy znaków dynamiki nieliniowej za sygnał mowy uważa się wielkość skalarną obserwowaną w narządzie głosowym człowieka. Proces wytwarzania mowy można uznać za nieliniowy i analizować metodami dynamiki nieliniowej. Zadaniem dynamiki nieliniowej jest znalezienie i przeprowadzenie szczegółowego badania podstawowych modeli matematycznych i układów rzeczywistych, wychodząc z najbardziej typowych propozycji dotyczących właściwości poszczególnych elementów tworzących układ i praw interakcji między nimi. Obecnie metody dynamiki nieliniowej opierają się na podstawowej teorii matematycznej, która opiera się na twierdzeniu Takensa (Język angielski) Rosyjski, co zapewnia rygorystyczną podstawę matematyczną dla idei nieliniowej autoregresji i dowodzi możliwości odtworzenia portretu fazowego atraktora z szeregu czasowego lub jednej z jego współrzędnych. (Atraktor rozumiany jest jako zbiór punktów lub podprzestrzeń w przestrzeni fazowej, do której trajektoria fazowa zbliża się po zaniku stanów nieustalonych.) Oszacowania charakterystyki sygnału na podstawie zrekonstruowanych trajektorii mowy są wykorzystywane do konstrukcji nieliniowych deterministycznych modeli przestrzeni fazowej obserwowany szereg czasowy. Zidentyfikowane różnice w kształcie atraktorów mogą posłużyć do opracowania reguł i znaków diagnostycznych pozwalających rozpoznać i prawidłowo zidentyfikować różne emocje w naładowanym emocjonalnie sygnale mowy.

Opcje jakości mowy

Parametry jakości mowy w kanałach cyfrowych:

  • Zrozumiałość mowy sylabowej;
  • Zrozumiałość frazowa mowy;
  • Jakość mowy w porównaniu z jakością mowy ścieżki referencyjnej;
  • Jakość mowy w rzeczywistych warunkach pracy.

Podstawowe koncepcje

  • Zrozumiałość mowy to względna liczba poprawnie odebranych elementów mowy (dźwięków, sylab, słów, fraz), wyrażona jako procent całkowitej liczby przesłanych elementów.
  • Jakość mowy jest parametrem charakteryzującym subiektywną ocenę brzmienia mowy w badanym systemie transmisji mowy.
  • Normalne tempo mowy oznacza mówienie z szybkością, przy której średni czas trwania frazy kontrolnej wynosi 2,4 s.
  • Przyspieszone tempo mowy - mówienie z prędkością, przy której średni czas trwania frazy kontrolnej wynosi 1,5-1,6 s.
  • Rozpoznawalność głosu mówiącego to zdolność słuchaczy do zidentyfikowania brzmienia głosu z konkretną osobą, wcześniej znaną słuchaczowi.
  • Zrozumiałość semantyczna jest wskaźnikiem stopnia prawidłowego odtworzenia treści informacyjnej mowy.
  • Jakość integralna jest wskaźnikiem charakteryzującym ogólne wrażenie słuchacza na temat odebranej mowy.

Aplikacja

Za główną zaletę systemów głosowych uznano łatwość obsługi. Polecenia głosowe miały na celu wyeliminowanie konieczności używania przez użytkownika końcowego dotyku i innych metod i poleceń wprowadzania.

  • Komendy głosowe
  • Głosowe wprowadzanie tekstu

Udanymi przykładami wykorzystania technologii rozpoznawania mowy w aplikacjach mobilnych są: głosowe wprowadzanie adresu w Yandex.Navigatorze, wyszukiwanie głosowe Google Now.

Oprócz urządzeń mobilnych technologia rozpoznawania mowy jest szeroko stosowana w różnych obszarach biznesowych:

  • Telefonia: automatyzacja obsługi połączeń przychodzących i wychodzących poprzez tworzenie samoobsługowych systemów głosowych, w szczególności do: pozyskiwania informacji referencyjnych i doradztwa, zamawiania usług/produktów, zmiany parametrów istniejących usług, przeprowadzania ankiet, ankiet, zbierania informacji, informowania i wszelkich inne scenariusze;
  • Rozwiązania Smart Home: interfejs głosowy do sterowania systemami Smart Home;
  • Urządzenia i roboty gospodarstwa domowego: interfejs głosowy robotów elektronicznych; sterowanie głosowe sprzętem AGD itp.;
  • Komputery stacjonarne i laptopy: wprowadzanie głosu w grach i aplikacjach komputerowych;
  • Samochody: sterowanie głosowe we wnętrzu samochodu – np. system nawigacji;
  • Usługi społeczne dla osób niepełnosprawnych.

Zobacz też

  • Przetwarzanie sygnału cyfrowego

Notatki

  1. Davies, KH, Biddulph, R. i Balashek, S. (1952) Automatyczne rozpoznawanie mowy wypowiadanych cyfr, J. Acoust. Towarzystwo Jestem. 24 (6) s. 637-642
  2. Konto zawieszone
  3. Współczesne problemy w dziedzinie rozpoznawania mowy.  - Auditech.Ltd. Pobrano 3 marca 2013 r. Zarchiwizowano 15 marca 2013 r.
  4. http://phonoscopic.rf/articles_and_publications/Lobanova_Search_of_identical_fragments.pdf
  5. http://booksshare.net/books/med/chistovich-la/1976/files/fizrech1976.djvu
  6. http://revistaie.ase.ro/content/46/s%20-%20furtuna.pdf
  7. http://www.ccas.ru/frc/papers/mestetskii04course.pdf
  8. Rozpoznawanie mowy|  Centrum Technologii Mowy |  MCR. Pobrano 20 kwietnia 2013 r. Zarchiwizowano 28 kwietnia 2013 r.
  9. http://pawlin.ru/materials/neiro/sistemy_raspoznavaniya.pdf
  10. http://intsys.msu.ru/magazine/archive/v3(1-2)/mazurenko.pdf
  11. http://eprints.tstu.tver.ru/69/1/3.pdf
  12. http://www.terrahumana.ru/arhiv/10_04/10_04_25.pdf
  13. Rozprawa doktorska na temat „Badania stanu psychofizjologicznego człowieka na podstawie emocjonalnych znaków mowy” streszczenie w specjalności Wyższej Komisji Atestacyjnej 05.11.17, 05.13.01 - Urządzenie…
  14. GOST R 51061-97.  PARAMETRY JAKOŚCI MOWY.  SYSTEMY TRANSMISJI MOWY NISKIEJ PRĘDKOŚCI KANAŁAMI CYFROWYMI. . Zarchiwizowane od oryginału w dniu 30 kwietnia 2013 r.

Spinki do mankietów

  • Technologie rozpoznawania mowy, www.xakep.ru
  • I. A. Shalimov, M. A. Bessonov. Analiza stanu i perspektyw rozwoju technologii określania języka przekazu audio.
  • Jak działa technologia rozpoznawania mowy Yandex SpeechKit firmy Yandex  |  Habrahabr
  • Technologia rozpoznawania mowy Yandex SpeechKit firmy Yandex

YaC 2013

Model akustyczny

Alfabet fonetyczny Yandex

Prawdopodobieństwa

P.S.

Dziś wiele osób rozwiązuje codzienne problemy w drodze – ze swoich telefonów. Dzięki niemu możesz sprawdzić pocztę, wysłać dokumenty i zdjęcia, znaleźć najbliższy bankomat czy wyznaczyć trasę dojazdu. Używanie klawiatury do wszystkich takich zadań nie jest wygodne, dlatego obecnie jednym z najważniejszych obszarów rozwoju urządzeń mobilnych jest sterowanie głosowe.

Sterowanie głosowe opiera się na technologii rozpoznawania mowy. Obejmuje osiągnięcia z różnych dziedzin: od lingwistyki komputerowej po cyfrowe przetwarzanie sygnałów. Na konferencji YaC 2013 na początku października firma Yandex zaprezentowała swoją technologię rozpoznawania mowy, a dziś chcielibyśmy porozmawiać o tym, jak ona działa.

Model akustyczny

Jeśli do wyszukiwania głosowego powiesz „Lew Tołstoj”, smartfon usłyszy nie imię i nazwisko, nie dwa słowa, ale sygnał dźwiękowy, w którym dźwięki płynnie przechodzą w siebie, bez wyraźnych granic. Zadaniem systemu rozpoznawania mowy jest odtworzenie na podstawie tego sygnału tego, co zostało powiedziane. Sytuację komplikuje fakt, że to samo zdanie, wypowiedziane przez różne osoby w różnych sytuacjach, będzie dawać zupełnie inne sygnały. System modelowania akustycznego pomaga w ich prawidłowej interpretacji.

Kiedy na przykład wysyłasz żądanie głosowe w Yandex.Navigatorze, smartfon nagrywa je i wysyła na serwer Yandex. Na serwerze nagranie jest podzielone na wiele małych fragmentów (klatek) o długości 25 milisekund, zachodzących na siebie, z krokiem 10 milisekund. Oznacza to, że jedna sekunda Twojej wypowiedzi zamienia się w sto klatek.

Następnie każdy z nich przechodzi przez model akustyczny – funkcja określająca, jakie dźwięki wydałeś. Na podstawie tych danych system, przeszkolony metodami uczenia maszynowego, określa odmiany słów, które widzisz w wynikach wyszukiwania. Przeglądarka mobilna, w odpowiedzi na zapytanie „Leo Tołstoj”, znajdzie strony o wielkim pisarzu, a Nawigator i Mapy zaoferują ulicę Lwa Tołstoja.

Dokładność wyników zależy bezpośrednio od tego, jak dobrze system identyfikuje dźwięki mówione. Aby to było możliwe, alfabet fonetyczny, z którym współpracuje, musi być wystarczająco dokładny i kompletny.

Alfabet fonetyczny Yandex

Według różnych teorii w języku rosyjskim istnieje około 40 fonemów (jednostek dźwiękowych). Nasz system rozpoznawania mowy dopasowuje przychodzący sygnał mowy do fonemów, a następnie składa z nich słowa. Na przykład słowo „Yandex” składa się z siedmiu fonemów - [th] [a] [n] [d] [e] [k] [s]. Fonemy mogą mieć różną długość trwania, a po rozbiciu na klatkę słowo „Yandex” może wyglądać na przykład tak - [th] [th] [a] [a] [a] [a] [a] ][a] [a] [a] [a] [n] [n] [d] [d] [e] [k] [s]. Wymowa dowolnego fonemu zależy od jego sąsiadów i pozycji w słowie. Oznacza to, że dźwięk [a] na początku, w środku i na końcu słowa jest trzy różne [a], a dźwięk [a] między dwiema samogłoskami w kombinacji „na nagraniu audio” jest inny niż [a] pomiędzy spółgłoskami w słowie „bak”. Dlatego fonem jest jednostką zbyt grubą, aby można go było dobrze rozpoznać.

Aby dokładniej modelować wymowę fonemu, najpierw dzielimy każdy fonem na trzy części: konwencjonalny początek, środek i koniec. Po drugie, opracowaliśmy własny alfabet fonetyczny, który uwzględnia położenie i kontekst fonemów. Nierozsądne byłoby uwzględnienie wszystkich możliwych wariantów fonemów kontekstowych, gdyż wiele z nich nie występuje w prawdziwym życiu. Dlatego nauczyliśmy nasz program wspólnego rozpatrywania podobnych dźwięków. W rezultacie otrzymaliśmy zestaw 4000 jednostek elementarnych - senonów. To jest alfabet fonetyczny Yandex, z którym współpracuje nasza technologia rozpoznawania mowy.

Prawdopodobieństwa

W idealnym świecie program dokładnie określiłby, który fonem odpowiada poszczególnym fragmentom żądania głosowego. Ale nawet osoba może czasami nie rozumieć lub nie słyszeć wszystkich dźwięków i uzupełnia słowo w oparciu o kontekst. A jeśli dana osoba polega na własnym doświadczeniu mowy, wówczas nasz system działa z prawdopodobieństwem.

Po pierwsze, każdy fragment żądania głosowego (ramka) porównywany jest nie z jednym fonemem, ale z kilkoma, odpowiednimi z różnym stopniem prawdopodobieństwa. Po drugie, istnieje tabela prawdopodobieństw przejścia, która wskazuje, że po „a” będzie również „a” z jednym prawdopodobieństwem, „b” z innym i tak dalej. Pozwala to na określenie wariantów ciągu fonemów, a następnie na podstawie dostępnych dla programu danych o wymowie, morfologii i semantyce wariantów słów, które można wypowiedzieć.

Program może także przywracać słowa zgodnie z ich znaczeniem. Jeśli przebywasz w hałaśliwym miejscu, nie mówisz wyraźnie lub używasz niejednoznacznych słów, zrealizuje Twoją prośbę w oparciu o kontekst i statystyki. Na przykład w programie częściej będzie kontynuowana fraza „mama umyła…” w formie „mama umyła ramę” niż „mama umyła ranę”. Dzięki uczeniu maszynowemu na różnorodnych danych nasz program jest odporny na szumy, dobrze rozpoznaje mowę z akcentem, a jakość rozpoznawania jest praktycznie niezależna od płci i wieku mówiącego.

Obecnie nasza technologia rozpoznawania mowy poprawnie identyfikuje 94% słów w Nawigatorze i Mapach mobilnych oraz 84% słów w przeglądarce mobilnej. W tym przypadku rozpoznanie trwa około sekundy. To już bardzo przyzwoity wynik i aktywnie pracujemy nad jego poprawą. Wierzymy, że za kilka lat interfejs wprowadzania głosowego nie będzie gorszy od metod klasycznych.

P.S. Oprócz samej technologii, na targach YaC 2013 zaprezentowaliśmy publiczne API do rozpoznawania mowy – SpeechKit. Z jego pomocą programiści mogą dodać wyszukiwanie głosowe Yandex do swoich aplikacji na Androida i iOS. Możesz pobrać SpeechKit i przeczytać dokumentację.

","contentType":"text/html"),"proposedBody":("source":"

Dziś wiele osób rozwiązuje codzienne problemy w drodze – ze swoich telefonów. Dzięki niemu możesz sprawdzić pocztę, wysłać dokumenty i zdjęcia, znaleźć najbliższy bankomat czy wyznaczyć trasę dojazdu. Używanie klawiatury do wszystkich takich zadań nie jest wygodne, dlatego obecnie jednym z najważniejszych obszarów rozwoju urządzeń mobilnych jest sterowanie głosowe.

Sterowanie głosowe opiera się na technologii rozpoznawania mowy. Obejmuje osiągnięcia z różnych dziedzin: od lingwistyki komputerowej po cyfrowe przetwarzanie sygnałów. Na konferencji YaC 2013 na początku października firma Yandex zaprezentowała swoją technologię rozpoznawania mowy, a dziś chcielibyśmy porozmawiać o tym, jak ona działa.

Model akustyczny

Jeśli do wyszukiwania głosowego powiesz „Lew Tołstoj”, smartfon usłyszy nie imię i nazwisko, nie dwa słowa, ale sygnał dźwiękowy, w którym dźwięki płynnie przechodzą w siebie, bez wyraźnych granic. Zadaniem systemu rozpoznawania mowy jest odtworzenie na podstawie tego sygnału tego, co zostało powiedziane. Sytuację komplikuje fakt, że to samo zdanie, wypowiedziane przez różne osoby w różnych sytuacjach, będzie dawać zupełnie inne sygnały. System modelowania akustycznego pomaga w ich prawidłowej interpretacji.

Kiedy na przykład wysyłasz żądanie głosowe w Yandex.Navigatorze, smartfon nagrywa je i wysyła na serwer Yandex. Na serwerze nagranie jest podzielone na wiele małych fragmentów (klatek) o długości 25 milisekund, zachodzących na siebie, z krokiem 10 milisekund. Oznacza to, że jedna sekunda Twojej wypowiedzi zamienia się w sto klatek.

Następnie każdy z nich przechodzi przez model akustyczny – funkcja określająca, jakie dźwięki wydałeś. Na podstawie tych danych system, przeszkolony metodami uczenia maszynowego, określa odmiany słów, które widzisz w wynikach wyszukiwania. Przeglądarka mobilna, w odpowiedzi na zapytanie „Leo Tołstoj”, znajdzie strony o wielkim pisarzu, a Nawigator i Mapy zaoferują ulicę Lwa Tołstoja.

Dokładność wyników zależy bezpośrednio od tego, jak dobrze system identyfikuje dźwięki mówione. Aby to było możliwe, alfabet fonetyczny, z którym współpracuje, musi być wystarczająco dokładny i kompletny.

Alfabet fonetyczny Yandex

Według różnych teorii w języku rosyjskim istnieje około 40 fonemów (jednostek dźwiękowych). Nasz system rozpoznawania mowy dopasowuje przychodzący sygnał mowy do fonemów, a następnie składa z nich słowa. Na przykład słowo „Yandex” składa się z siedmiu fonemów - [th] [a] [n] [d] [e] [k] [s]. Fonemy mogą mieć różną długość trwania, a po rozbiciu na klatkę słowo „Yandex” może wyglądać na przykład tak - [th] [th] [a] [a] [a] [a] [a] ][a] [a] [a] [a] [n] [n] [d] [d] [e] [k] [s]. Wymowa dowolnego fonemu zależy od jego sąsiadów i pozycji w słowie. Oznacza to, że dźwięk [a] na początku, w środku i na końcu słowa jest trzy różne [a], a dźwięk [a] między dwiema samogłoskami w kombinacji „na nagraniu audio” jest inny niż [a] pomiędzy spółgłoskami w słowie „bak”. Dlatego fonem jest jednostką zbyt grubą, aby można go było dobrze rozpoznać.

Aby dokładniej modelować wymowę fonemu, najpierw dzielimy każdy fonem na trzy części: konwencjonalny początek, środek i koniec. Po drugie, opracowaliśmy własny alfabet fonetyczny, który uwzględnia położenie i kontekst fonemów. Nierozsądne byłoby uwzględnienie wszystkich możliwych wariantów fonemów kontekstowych, gdyż wiele z nich nie występuje w prawdziwym życiu. Dlatego nauczyliśmy nasz program wspólnego rozpatrywania podobnych dźwięków. W rezultacie otrzymaliśmy zestaw 4000 jednostek elementarnych - senonów. To jest alfabet fonetyczny Yandex, z którym współpracuje nasza technologia rozpoznawania mowy.

Prawdopodobieństwa

W idealnym świecie program dokładnie określiłby, który fonem odpowiada poszczególnym fragmentom żądania głosowego. Ale nawet osoba może czasami nie rozumieć lub nie słyszeć wszystkich dźwięków i uzupełnia słowo w oparciu o kontekst. A jeśli dana osoba polega na własnym doświadczeniu mowy, wówczas nasz system działa z prawdopodobieństwem.

Po pierwsze, każdy fragment żądania głosowego (ramka) porównywany jest nie z jednym fonemem, ale z kilkoma, odpowiednimi z różnym stopniem prawdopodobieństwa. Po drugie, istnieje tabela prawdopodobieństw przejścia, która wskazuje, że po „a” będzie również „a” z jednym prawdopodobieństwem, „b” z innym i tak dalej. Pozwala to na określenie wariantów ciągu fonemów, a następnie na podstawie dostępnych dla programu danych o wymowie, morfologii i semantyce wariantów słów, które można wypowiedzieć.

Program może także przywracać słowa zgodnie z ich znaczeniem. Jeśli przebywasz w hałaśliwym miejscu, nie mówisz wyraźnie lub używasz niejednoznacznych słów, zrealizuje Twoją prośbę w oparciu o kontekst i statystyki. Na przykład w programie częściej będzie kontynuowana fraza „mama umyła…” w formie „mama umyła ramę” niż „mama umyła ranę”. Dzięki uczeniu maszynowemu na różnorodnych danych nasz program jest odporny na szumy, dobrze rozpoznaje mowę z akcentem, a jakość rozpoznawania jest praktycznie niezależna od płci i wieku mówiącego.

Obecnie nasza technologia rozpoznawania mowy poprawnie identyfikuje 94% słów w Nawigatorze i Mapach mobilnych oraz 84% słów w przeglądarce mobilnej. W tym przypadku rozpoznanie trwa około sekundy. To już bardzo przyzwoity wynik i aktywnie pracujemy nad jego poprawą. Wierzymy, że za kilka lat interfejs wprowadzania głosowego nie będzie gorszy od metod klasycznych.

P.S. Oprócz samej technologii, na targach YaC 2013 zaprezentowaliśmy publiczne API do rozpoznawania mowy – SpeechKit. Z jego pomocą programiści mogą dodać wyszukiwanie głosowe Yandex do swoich aplikacji na Androida i iOS. Możesz pobrać SpeechKit i przeczytać dokumentację.

Dziś wiele osób rozwiązuje codzienne problemy w drodze – ze swoich telefonów. Dzięki niemu możesz sprawdzić pocztę, wysłać dokumenty i zdjęcia, znaleźć najbliższy bankomat czy wyznaczyć trasę dojazdu. Używanie klawiatury do wszystkich takich zadań nie jest wygodne, dlatego obecnie jednym z najważniejszych obszarów rozwoju urządzeń mobilnych jest sterowanie głosowe.

Sterowanie głosowe opiera się na technologii rozpoznawania mowy. Obejmuje osiągnięcia z różnych dziedzin: od lingwistyki komputerowej po cyfrowe przetwarzanie sygnałów. Na konferencji YaC 2013 na początku października firma Yandex zaprezentowała swoją technologię rozpoznawania mowy, a dziś chcielibyśmy porozmawiać o tym, jak ona działa.

Model akustyczny

Jeśli do wyszukiwania głosowego powiesz „Lew Tołstoj”, smartfon usłyszy nie imię i nazwisko, nie dwa słowa, ale sygnał dźwiękowy, w którym dźwięki płynnie przechodzą w siebie, bez wyraźnych granic. Zadaniem systemu rozpoznawania mowy jest odtworzenie na podstawie tego sygnału tego, co zostało powiedziane. Sytuację komplikuje fakt, że to samo zdanie, wypowiedziane przez różne osoby w różnych sytuacjach, będzie dawać zupełnie inne sygnały. System modelowania akustycznego pomaga w ich prawidłowej interpretacji.

Kiedy na przykład wysyłasz żądanie głosowe w Yandex.Navigatorze, smartfon nagrywa je i wysyła na serwer Yandex. Na serwerze nagranie jest podzielone na wiele małych fragmentów (klatek) o długości 25 milisekund, zachodzących na siebie, z krokiem 10 milisekund. Oznacza to, że jedna sekunda Twojej wypowiedzi zamienia się w sto klatek.

Następnie każdy z nich przechodzi przez model akustyczny – funkcja określająca, jakie dźwięki wydałeś. Na podstawie tych danych system, przeszkolony metodami uczenia maszynowego, określa odmiany słów, które widzisz w wynikach wyszukiwania. Przeglądarka mobilna, w odpowiedzi na zapytanie „Leo Tołstoj”, znajdzie strony o wielkim pisarzu, a Nawigator i Mapy zaoferują ulicę Lwa Tołstoja.

Dokładność wyników zależy bezpośrednio od tego, jak dobrze system identyfikuje dźwięki mówione. Aby to było możliwe, alfabet fonetyczny, z którym współpracuje, musi być wystarczająco dokładny i kompletny.

Alfabet fonetyczny Yandex

Według różnych teorii w języku rosyjskim istnieje około 40 fonemów (jednostek dźwiękowych). Nasz system rozpoznawania mowy dopasowuje przychodzący sygnał mowy do fonemów, a następnie składa z nich słowa. Na przykład słowo „Yandex” składa się z siedmiu fonemów - [th] [a] [n] [d] [e] [k] [s]. Fonemy mogą mieć różną długość trwania, a po rozbiciu na klatkę słowo „Yandex” może wyglądać na przykład tak - [th] [th] [a] [a] [a] [a] [a] ][a] [a] [a] [a] [n] [n] [d] [d] [e] [k] [s]. Wymowa dowolnego fonemu zależy od jego sąsiadów i pozycji w słowie. Oznacza to, że dźwięk [a] na początku, w środku i na końcu słowa jest trzy różne [a], a dźwięk [a] między dwiema samogłoskami w kombinacji „na nagraniu audio” jest inny niż [a] pomiędzy spółgłoskami w słowie „bak”. Dlatego fonem jest jednostką zbyt grubą, aby można go było dobrze rozpoznać.

Aby dokładniej modelować wymowę fonemu, najpierw dzielimy każdy fonem na trzy części: konwencjonalny początek, środek i koniec. Po drugie, opracowaliśmy własny alfabet fonetyczny, który uwzględnia położenie i kontekst fonemów. Nierozsądne byłoby uwzględnienie wszystkich możliwych wariantów fonemów kontekstowych, gdyż wiele z nich nie występuje w prawdziwym życiu. Dlatego nauczyliśmy nasz program wspólnego rozpatrywania podobnych dźwięków. W rezultacie otrzymaliśmy zestaw 4000 jednostek elementarnych - senonów. To jest alfabet fonetyczny Yandex, z którym współpracuje nasza technologia rozpoznawania mowy.

Prawdopodobieństwa

W idealnym świecie program dokładnie określiłby, który fonem odpowiada poszczególnym fragmentom żądania głosowego. Ale nawet osoba może czasami nie rozumieć lub nie słyszeć wszystkich dźwięków i uzupełnia słowo w oparciu o kontekst. A jeśli dana osoba polega na własnym doświadczeniu mowy, wówczas nasz system działa z prawdopodobieństwem.

Po pierwsze, każdy fragment żądania głosowego (ramka) porównywany jest nie z jednym fonemem, ale z kilkoma, odpowiednimi z różnym stopniem prawdopodobieństwa. Po drugie, istnieje tabela prawdopodobieństw przejścia, która wskazuje, że po „a” będzie również „a” z jednym prawdopodobieństwem, „b” z innym i tak dalej. Pozwala to na określenie wariantów ciągu fonemów, a następnie na podstawie dostępnych dla programu danych o wymowie, morfologii i semantyce wariantów słów, które można wypowiedzieć.

Program może także przywracać słowa zgodnie z ich znaczeniem. Jeśli przebywasz w hałaśliwym miejscu, nie mówisz wyraźnie lub używasz niejednoznacznych słów, zrealizuje Twoją prośbę w oparciu o kontekst i statystyki. Na przykład w programie częściej będzie kontynuowana fraza „mama umyła…” w formie „mama umyła ramę” niż „mama umyła ranę”. Dzięki uczeniu maszynowemu na różnorodnych danych nasz program jest odporny na szumy, dobrze rozpoznaje mowę z akcentem, a jakość rozpoznawania jest praktycznie niezależna od płci i wieku mówiącego.

Obecnie nasza technologia rozpoznawania mowy poprawnie identyfikuje 94% słów w Nawigatorze i Mapach mobilnych oraz 84% słów w przeglądarce mobilnej. W tym przypadku rozpoznanie trwa około sekundy. To już bardzo przyzwoity wynik i aktywnie pracujemy nad jego poprawą. Wierzymy, że za kilka lat interfejs wprowadzania głosowego nie będzie gorszy od metod klasycznych.

P.S. Oprócz samej technologii, na targach YaC 2013 zaprezentowaliśmy publiczne API do rozpoznawania mowy – SpeechKit. Z jego pomocą programiści mogą dodać wyszukiwanie głosowe Yandex do swoich aplikacji na Androida i iOS. Możesz pobrać SpeechKit i przeczytać dokumentację.

","contentType":"text/html"),"authorId":"5105614","slug":"72171","canEdit":false"canComment":false"isBanned":false"canPublish" :false, „viewType”: „old”, „isDraft”: false, „isSubscriber”: false, „commentsCount”: 13, „modificationDate”: „Piątek 22 listopada 2013 r. 16:24:00 GMT+0000 (UTC)” ,,showPreview":true,approvedPreview":("source":"Dzisiaj wiele osób rozwiązuje codzienne problemy w drodze - za pomocą telefonu. Możesz za jego pomocą sprawdzić pocztę, wysłać dokumenty i zdjęcia, znaleźć najbliższy bankomat lub zbuduj trasę samochodową. Nie do wszystkich takich zadań wygodnie jest używać klawiatury, dlatego obecnie jednym z najważniejszych obszarów rozwoju urządzeń mobilnych jest sterowanie głosowe.","html":"Dzisiaj wiele osób rozwiązuje codzienne zadania w drodze - z telefonu. Można go używać do sprawdzania poczty, wysyłania dokumentów i zdjęć, znajdowania najbliższego bankomatu lub wyznaczania trasy samochodowej. Do wszystkich takich zadań nie jest wygodnie używać klawiatury, dlatego jest to teraz jeden z najważniejszych obszarów rozwoju rozwiązań mobilnych to sterowanie głosowe.","contentType":"text/html"),"proposedPreview" :("source":"Dzisiaj wiele osób rozwiązuje codzienne problemy w drodze - za pomocą swoich telefonów. Dzięki niemu możesz sprawdzić pocztę, wysłać dokumenty i zdjęcia, znaleźć najbliższy bankomat czy wyznaczyć trasę dojazdu. Używanie klawiatury do wszystkich takich zadań nie jest wygodne, dlatego obecnie jednym z najważniejszych obszarów rozwoju urządzeń mobilnych jest sterowanie głosowe.","html":"Dzisiaj wiele osób rozwiązuje codzienne problemy w drodze - za pomocą telefonu. Dzięki niemu możesz sprawdzić pocztę, wysłać dokumenty i zdjęcia, znaleźć najbliższy bankomat czy wyznaczyć trasę dojazdu. Używanie klawiatury do wszystkich takich zadań nie jest wygodne, dlatego obecnie jednym z najważniejszych obszarów rozwoju urządzeń mobilnych jest sterowanie głosowe.","contentType":"text/html"),titleImage:null,"tags" :[("displayName ":"Yandex Technologies","slug":"tekhnologii-yandeksa","categoryId":"150002777","url":"/blog/company?tag=tekhnologii-yandeksa"),( „displayName”: „jak to działa?”, „slug”: „kak-eto-rabotaet”, „categoryId”: „150006149”, „url”: „/blog/company?tag=kak-eto-rabotaet ")],"isModerator ":false,"commentsEnabled":true,"url":"/blog/company/72171","urlTemplate":"/blog/company/%slug%","fullBlogUrl":"https ://yandex.ru /blog/company","addCommentUrl":"/blog/createComment/company/72171","updateCommentUrl":"/blog/updateComment/company/72171","addCommentWithCaptcha":"/blog/ createWithCaptcha/company/72171" ,,changeCaptchaUrl":"/blog/api/captcha/new","putImageUrl":"/blog/image/put","urlBlog":"/blog/company","urlEditPost": "/blog/562886797eba6ef16f805641/ edytuj","urlSlug":"/blog/post/generateSlug","urlPublishPost":"/blog/562886797eba6ef16f805641/publish","urlUnpublishPost":"/blog/562886797eba6ef16f80 5641/cofnij publikację","urlRemovePost ":"/blog/ 562886797eba6ef16f805641/removePost","urlDraft":"/blog/company/72171/draft","urlDraftTemplate":"/blog/company/%slug%/draft","urlRemoveDraft":"/blog /562886797eba6ef16f805641/removeD raft", "urlTagSuggest":"/blog/api/suggest/company","urlAfterDelete":"/blog/company","isAuthor":false,"subscribeUrl":"/blog/api/subscribe /562886797eba6ef16f805641","unsubscribeUrl" :"/blog/api/unsubscribe/562886797eba6ef16f805641","urlEditPostPage":"/blog/company/562886797eba6ef16f805641/edit","urlForTranslate":"/blog/ opublikuj/przetłumacz","urlRelateIssue" :"/blog/post/ updateIssue","urlUpdateTranslate":"/blog/post/updateTranslate","urlLoadTranslate":"/blog/post/loadTranslate","urlTranslationStatus":"/blog/company/72171/translationInfo" ,,urlRelatedArticles":"/ blog/api/latedArticles/company/72171","author":("id":"5105614","uid":("value":"5105614","lite":false, "hosted":false), "aliasy":("13":"kadaner"),"login":"minushuman","display_name":("name":"Alexey","avatar":("default" :"21377/5105614-16014116 ","pusty":fałsz)),"adres":" [e-mail chroniony]","defaultAvatar":"21377/5105614-16014116","imageSrc":"https://avatars.mds.yandex.net/get-yapic/21377/5105614-16014116/islands-middle","isYandexStaff": true),"originalModificationDate":"2013-11-22T12:24:47.000Z","socialImage":("orig":("fullPath":"https://avatars.mds.yandex.net/get-yablogs /49865/plik_1465551301378/orig")))))">

Jak to działa? Rozpoznawanie mowy

Dziś wiele osób rozwiązuje codzienne problemy w drodze – ze swoich telefonów. Dzięki niemu możesz sprawdzić pocztę, wysłać dokumenty i zdjęcia, znaleźć najbliższy bankomat czy wyznaczyć trasę dojazdu. Używanie klawiatury do wszystkich takich zadań nie jest wygodne, dlatego obecnie jednym z najważniejszych obszarów rozwoju urządzeń mobilnych jest sterowanie głosowe.

Sterowanie głosowe opiera się na technologii rozpoznawania mowy. Obejmuje osiągnięcia z różnych dziedzin: od lingwistyki komputerowej po cyfrowe przetwarzanie sygnałów. Na konferencji na początku października Yandex zaprezentował swoją technologię rozpoznawania mowy, a dziś chcielibyśmy porozmawiać o tym, jak ona działa.

Model akustyczny

Jeśli do wyszukiwania głosowego powiesz „Lew Tołstoj”, smartfon usłyszy nie imię i nazwisko, nie dwa słowa, ale sygnał dźwiękowy, w którym dźwięki płynnie przechodzą w siebie, bez wyraźnych granic. Zadaniem systemu rozpoznawania mowy jest odtworzenie na podstawie tego sygnału tego, co zostało powiedziane. Sytuację komplikuje fakt, że to samo zdanie, wypowiedziane przez różne osoby w różnych sytuacjach, będzie dawać zupełnie inne sygnały. System modelowania akustycznego pomaga w ich prawidłowej interpretacji.

Kiedy na przykład wysyłasz żądanie głosowe w Yandex.Navigatorze, smartfon nagrywa je i wysyła na serwer Yandex. Na serwerze nagranie jest podzielone na wiele małych fragmentów (klatek) o długości 25 milisekund, zachodzących na siebie, z krokiem 10 milisekund. Oznacza to, że jedna sekunda Twojej wypowiedzi zamienia się w sto klatek.

Następnie każdy z nich przechodzi przez model akustyczny – funkcja określająca, jakie dźwięki wydałeś. Na podstawie tych danych system, przeszkolony metodami uczenia maszynowego, określa odmiany słów, które widzisz w wynikach wyszukiwania. Przeglądarka mobilna, w odpowiedzi na zapytanie „Leo Tołstoj”, znajdzie strony o wielkim pisarzu, a Nawigator i Mapy zaoferują ulicę Lwa Tołstoja.

Dokładność wyników zależy bezpośrednio od tego, jak dobrze system identyfikuje dźwięki mówione. Aby to było możliwe, alfabet fonetyczny, z którym współpracuje, musi być wystarczająco dokładny i kompletny.

Alfabet fonetyczny Yandex

Według różnych teorii w języku rosyjskim istnieje około 40 fonemów (jednostek dźwiękowych). Nasz system rozpoznawania mowy dopasowuje przychodzący sygnał mowy do fonemów, a następnie składa z nich słowa. Na przykład słowo „Yandex” składa się z siedmiu fonemów - [th] [a] [n] [d] [e] [k] [s]. Fonemy mogą mieć różną długość trwania, a po rozbiciu na klatkę słowo „Yandex” może wyglądać na przykład tak - [th] [th] [a] [a] [a] [a] [a] ][a] [a] [a] [a] [n] [n] [d] [d] [e] [k] [s]. Wymowa dowolnego fonemu zależy od jego sąsiadów i pozycji w słowie. Oznacza to, że dźwięk [a] na początku, w środku i na końcu słowa jest trzy różne [a], a dźwięk [a] między dwiema samogłoskami w kombinacji „na nagraniu audio” jest inny niż [a] pomiędzy spółgłoskami w słowie „bak”. Dlatego fonem jest jednostką zbyt grubą, aby można go było dobrze rozpoznać.

Aby dokładniej modelować wymowę fonemu, najpierw dzielimy każdy fonem na trzy części: konwencjonalny początek, środek i koniec. Po drugie, opracowaliśmy własny alfabet fonetyczny, który uwzględnia położenie i kontekst fonemów. Nierozsądne byłoby uwzględnienie wszystkich możliwych wariantów fonemów kontekstowych, gdyż wiele z nich nie występuje w prawdziwym życiu. Dlatego nauczyliśmy nasz program wspólnego rozpatrywania podobnych dźwięków. W rezultacie otrzymaliśmy zestaw 4000 jednostek elementarnych - senonów. To jest alfabet fonetyczny Yandex, z którym współpracuje nasza technologia rozpoznawania mowy.

Prawdopodobieństwa

W idealnym świecie program dokładnie określiłby, który fonem odpowiada poszczególnym fragmentom żądania głosowego. Ale nawet osoba może czasami nie rozumieć lub nie słyszeć wszystkich dźwięków i uzupełnia słowo w oparciu o kontekst. A jeśli dana osoba polega na własnym doświadczeniu mowy, wówczas nasz system działa z prawdopodobieństwem.

Po pierwsze, każdy fragment żądania głosowego (ramka) porównywany jest nie z jednym fonemem, ale z kilkoma, odpowiednimi z różnym stopniem prawdopodobieństwa. Po drugie, istnieje tabela prawdopodobieństw przejścia, która wskazuje, że po „a” będzie również „a” z jednym prawdopodobieństwem, „b” z innym i tak dalej. Pozwala to na określenie wariantów ciągu fonemów, a następnie na podstawie dostępnych dla programu danych o wymowie, morfologii i semantyce wariantów słów, które można wypowiedzieć.

Program może także przywracać słowa zgodnie z ich znaczeniem. Jeśli przebywasz w hałaśliwym miejscu, nie mówisz wyraźnie lub używasz niejednoznacznych słów, zrealizuje Twoją prośbę w oparciu o kontekst i statystyki. Na przykład w programie częściej będzie kontynuowana fraza „mama umyła…” w formie „mama umyła ramę” niż „mama umyła ranę”. Dzięki uczeniu maszynowemu na różnorodnych danych nasz program jest odporny na szumy, dobrze rozpoznaje mowę z akcentem, a jakość rozpoznawania jest praktycznie niezależna od płci i wieku mówiącego.

Obecnie nasza technologia rozpoznawania mowy poprawnie identyfikuje 94% słów w Nawigatorze i Mapach mobilnych oraz 84% słów w przeglądarce mobilnej. W tym przypadku rozpoznanie trwa około sekundy. To już bardzo przyzwoity wynik i aktywnie pracujemy nad jego poprawą. Wierzymy, że za kilka lat interfejs wprowadzania głosowego nie będzie gorszy od metod klasycznych.

P.S. Oprócz samej technologii, na targach YaC 2013 zaprezentowaliśmy publiczne API do rozpoznawania mowy – SpeechKit. Z jego pomocą programiści mogą dodać wyszukiwanie głosowe Yandex do swoich aplikacji na Androida i iOS. Możesz pobrać SpeechKit i przeczytać dokumentację.

Naukowcy badają ten problem od około 70 lat, pierwszy system przemysłowy powstał w Japonii w drugiej połowie lat 80-tych, nazywano go systemem dyktowania tekstu na komputerze PC (dyktografami), system ten miał wąską specjalizację.

Przez rozpoznawanie mowy przez komputer rozumiemy takie rozpoznawanie, które szczegółowo opisuje percepcję mowy przez osobę w każdych warunkach i podczas komunikowania się z dowolną osobą.

Rozwiązywanie problemów utrudniają:

1) Brak jasnych koncepcji teoretycznych opisujących cały zespół przemian zachodzących w układzie nerwowym podczas przetwarzania sygnałów mowy;

2) Posiadanie płynnej mowy:

3) Zamazane granice słów:

4) Wpływ sąsiadujących ze sobą dźwięków;

5) Niejasna wymowa, a nawet zanik słów funkcjonalnych;

7) W procesie komunikacji werbalnej ogromne znaczenie mają paralingwistyczne środki komunikacji:

a) Kinezyka (mimika, gesty);

c) Proksemika (odległość między ludźmi).

Dlatego dzisiaj ARR można przeprowadzić tylko pod pewnymi ograniczeniami:

1) Rozpoznawanie wypowiadanych słów w izolacji;

3) Rozpoznawanie na podstawie małego, predefiniowanego słownika.

IBM jest liderem tego typu produktów z ViaVoice (140 słów na minutę). Popularnym systemem dyktowania jest DragonSystem.

Algorytm rozpoznawania:

1. Wprowadzanie mowy mówionej, przetwarzanie danych (usuwanie szumów);

2. Podział strumienia dźwiękowego na segmenty;

3. Izolacja w każdym segmencie minimalnej jednostki akustycznej - słowo;

4. Porównanie wybranych jednostek ze standardami.

Przemysłowe systemy rozpoznawania mowy dzielą się umownie na 4 grupy:

1. Narzędzia do sterowania głosem (komputer, telefon);

2. Narzędzia do dyktowania tekstu;

3. Systemy informacyjne i referencyjne w trybie interaktywnym jako automatyczna sekretarka;



4. Sposoby identyfikacji osoby na podstawie próbki mowy.


Pytanie 27.

Automatyczne systemy syntezy mowy

Metody:

1) Kodowanie (rejestracja sygnałów mowy w systemie binarnym z ich późniejszym przywróceniem)

a) Zasadniczo komputer PC służy tutaj jako urządzenie do nagrywania mowy; słowa i wyrażenia są zapisywane na komputerze z wyprzedzeniem i odtwarzane w odpowiednim czasie za pomocą poleceń);

b) Wada:

Nie da się wypowiedzieć frazy, która nie została wpisana do pamięci;

Przechowywanie sygnałów mowy w formie bezpośredniej wymaga dużej ilości pamięci;

c) Zalety:

Naturalny dźwięk mowy;

Jakość mowy zbliża się do mowy ludzkiej;

2) Synteza mowy fonetycznej (modelowanie akustyczne układu głosowego człowieka)

a) Syntezator wykorzystujący tę metodę zasadniczo różni się od syntezatora stosującego pierwszą metodę - ma nienaturalny dźwięk, przemawia głosem robota;

b) Zwykle przeprowadzane przy użyciu tekstu ortograficznego napisanego przez osobę, komputer w nim jest w stanie przekształcić litery w fonemy, fonemy w alofony i zsyntetyzować ciągły sygnał mowy za pomocą alofonów mówiącego, alofonów wybieralnych i bazy danych;

c) Najbardziej obiecujący, ponieważ mowa jest w rzeczywistości generowana przez sam komputer.

a) Słownik w tego typu syntezatorze, podobnie jak w pierwszej metodzie, tworzony jest przy udziale człowieka, ale tutaj to nie słowa i frazy zapisywane są w pamięci, ale numeryczna charakterystyka dźwięków mowy i intonacja frazy są izolowane, co pozwala zmniejszyć ilość wymaganej pamięci.

b) Mowa jest naturalna; aby ją wygenerować, cechy liczbowe są przekształcane na sygnały dźwiękowe za pomocą specjalnych poleceń.

Obecnie trwają prace nad tym, aby mowa syntetyzowana brzmiała żywo, emocjonalnie i naturalnie. Rozwiązanie tego problemu umożliwi stworzenie systemów tłumaczeń symultanicznych, aktywniejsze wykorzystanie komputerów PC w nauce języków, a także dla osób z wadą wzroku.


Pytanie 28.

Bazy danych (DB) i językowe źródła informacji (LIR)

DB– zbiór informacji o określonych obiektach uporządkowanych w określony sposób.

Obiekty- to informacje, fakty, zdarzenia, procesy. Przedmiot może być materialny (student, produkt, samochód) lub niematerialny (wydarzenie – wycieczka do cyrku, proces – tłumaczenie tekstu, fakt – przyjęcie na studia). W życiu każdy przedmiot ma pewne właściwości lub atrybuty (waga, prędkość, kolor), którym przypisane są określone wartości: bochenek waży 400 gramów, prędkość samochodu wynosi 90 km/h.

W bazie danych atrybuty są reprezentowane przez elementy danych lub po prostu dane, a ich wartości są wartościami danych.

Zatem, dany– jest to jakiś wskaźnik, który charakteryzuje dany obiekt i przyjmuje określoną wartość dla konkretnego elementu obiektu. Grupa danych tworząca jeden wiersz nazywana jest rekordem. Jeśli kilka rekordów zawiera ten sam zestaw danych i ten sam typ informacji, wówczas mówi się, że rekordy te mają ten sam format. Wiele rekordów o tym samym formacie nazywa się plikiem. Wiele plików tworzy bazę danych.

Podstawowe funkcje bazy danych

1) Wyszukiwanie informacji w bazie danych

a) dodatek;

b) usunięcie

c) redakcja

Systemy zarządzania bazami danych (DBMS)

DBMS– zestaw narzędzi programowych umożliwiających tworzenie i utrzymywanie bazy danych.

Typy DBMS-ów:

1. Desktopowe SZBD dzieli się ze względu na stopień złożoności:

a) DBMS do przetwarzania małych ilości informacji (MS OUTLOOK)

b) DBMS skierowany do użytkowników nie umiejących programować (EXCEL, LOTUS)

c) Złożone DBMS zorientowane na rozwój aplikacji (Fox Base, MS Access)

2. Serwerowy DBMS – wykorzystaj architekturę „klient-serwer”, tj. przeprowadzamy scentralizowane przechowywanie i przetwarzanie danych (Informix, MS SQL Server).

Podstawowe funkcje SZBD

1) Zapewnij utworzenie struktury bazy danych (określ, jakie informacje będą przechowywane, jakie atrybuty, typy danych)

2) Modyfikacja informacji znajdujących się w bazie danych:

a) dodatek;

b) usunięcie

c) redakcja

3) Szukaj informacji


Pytanie 29.

LIR -

Aktywny formy

W najbardziej ogólnym ujęciu LIR

Pasywne zasoby informacji językowej obejmują:

1) Leksykon pisany reprezentowany jest przez leksykony jednojęzyczne i wielojęzyczne. W sensie ogólnym słownik - jest to podręcznik zawierający słowa (morfemy, wyrażenia, idiomy itp.) ułożone w określonej kolejności (różnej w różnych typach słowników). Może zawierać interpretację znaczenia opisywanych jednostek, a także różne informacje O ich. Dowolny słownik można przedstawić jako relacyjną bazę danych

A) częstotliwościowo-alfabetyczny słownik form wyrazowych dowolny tekst - najprostsza baza językowa;

B) indeks słów bardziej złożona baza danych. W nim, oprócz bezwzględnej częstotliwości użycia formy wyrazu w tekście, wskazana jest liczba stron i wierszy na stronie, na której znaleziono tę formę wyrazu.

V) konkordancje jeszcze bardziej złożony typ bazy danych . W nich każda forma wyrazu tekstu charakteryzuje się nie tylko wskaźnikami liczbowymi (częstotliwość, numer strony, numer wiersza itp.), Ale także pewnym kontekstem , w którym jest używany. Z reguły kontekst ten składa się z 3 zdań: zdania, w którym występuje forma wyrazu, zdania przed zdaniem głównym i zdania po nim.

G) encyklopedie słowniki zawierające cechy nie słowa jako takiego, ale oznaczonego przez nie przedmiotu, faktu lub zjawiska. Na komputerowych nośnikach danych znajduje się dość duża liczba różnych encyklopedii. Najbardziej znaną z nich jest encyklopedia „Britannica”. Zawiera 82 000 artykułów i 700 materiałów dodatkowych opublikowanych od 1768 roku. Nie mniej znane są francuskie encyklopedie „Tons les savoire du Monde”, „Le monde sur CD-ROM”, „Wersal” itp. „Wielka Encyklopedia Cyryla i Metodego” została opublikowana w języku rosyjskim

D) słownik wyrazów bliskoznacznych- zasadniczo inny rodzaj słownika. Wyraźnie wskazuje na powiązania semantyczne pomiędzy określoną częścią jednostek leksykalnych. Z reguły takie słowniki są budowane dla tekstów z dość wąskiego obszaru problemowego: technologii komputerowej, muzyki, przemysłu stoczniowego, rolnictwa itp.

mi) słownik terminologiczny(TS) – słownik, którego główną jednostką jest termin .
Termin to słowo lub wyrażenie podrzędne, które ma specjalne znaczenie, wyraża i tworzy koncepcję zawodową i jest używane w procesie poznania i opanowywania obiektów naukowych i zawodowo-technicznych oraz relacji między nimi.


Pytanie 30.

LIR - zbiór danych przechowywany na komputerze PC.

Zasoby informacji językowej– jeden ze składników zasobów informacyjnych. Zasób informacyjny rozumiany jest jako pewien zasób intelektualny, będący efektem zbiorowej twórczości

Pasywne formy zasobów informacji obejmują książki, czasopisma, gazety, słowniki, encyklopedie, patenty, bazy danych i banki danych itp.

Aktywny formy obejmują algorytmy, modele, programy, bazy wiedzy

W najbardziej ogólnym ujęciu LIR- jest to rodzaj językowej bazy danych, którą można aktualizować i w której można wyszukiwać tę lub inną informację. Zasoby językowe są niezbędne zarówno użytkownikom komputerów PC, jak i różnym systemom komputerowym związanym z przetwarzaniem tekstu mowy: podsumowywaniem, opisywaniem i tłumaczeniem tekstów, automatyczną analizą tekstu, syntezą mowy i tekstu.

2) Napisana tablica tekstowa ( tekst główny w, tj. zbiór tekstów wystarczający do dostarczenia wiarygodnych wniosków naukowych na temat języka, dialektu lub innego podzbioru języka).

a) Można stosować:

W leksykografii i leksykologii (do tworzenia różnych słowników, ustalania znaczeń słów wieloznacznych, identyfikowania skojarzeniowych połączeń słów w tekście, podkreślania terminów i wyrażeń terminologicznych itp.).

W gramatyce (w celu określenia częstotliwości użycia morfemów gramatycznych w tekstach różnego typu, zidentyfikowania najczęściej używanych typów fraz i zdań, określenia znaczenia synonimicznych jednostek morfologicznych, częstotliwości użycia klas wyrazów itp.).

W językoznawstwie tekstu (w celu różnicowania typów tekstów, tworzenia konkordancji, identyfikowania powiązań między zdaniami w akapitach i między akapitami itp.).

Podczas automatycznego tłumaczenia tekstów (w celu wyszukiwania kontekstów słów, które mają kilka odpowiedników w tłumaczeniu, w celu wyszukiwania odpowiedników tłumaczeniowych wyrażeń terminologicznych i frazeologicznych w tekstach równoległych itp.).

W celach edukacyjnych (do wyboru cytatów, poszczególnych fragmentów dzieł, przykładów wykorzystanych w procesie tworzenia podręczników i pomocy dydaktycznych).

B) oznaczone korpusy tekstowe(z angielskiego, znacznik -„indeks, miot”). Wszystkie słowa w takim korpusie otrzymują indeksy literowe lub numeryczne, które wskazują na ich cechy gramatyczne, leksykalne, semantyczne lub strukturalne. Takich indeksów może być kilka.

3) Fonetyczne zasoby językowe
Obecnie powszechnie przyjmuje się, że do tworzenia korpusów fonetycznych nadających się do odczytu maszynowego stosuje się transkrypcję opartą na ortograficznej reprezentacji mowy dźwiękowej z dodatkowymi znakami, które przekazują (w razie potrzeby) prozodyczne, paralingwistyczne i inne cechy wymowy.

a) Korpusy fonetyczne tekstów są szeroko stosowane do rozwiązywania następujących problemów:

Badanie porównawcze ustnych i pisanych form języka;

Badanie cech gramatycznych i leksykalnych mowy ustnej;

Badanie cech fonetycznych dialektów;

Konstruowanie list częstotliwościowych fonemów i ich kombinacji;

Badanie właściwości akustycznych jednostek mowy i ich wykorzystanie w eksperymentach psycholingwistycznych i językowych;

Tworzenie systemów komputerowych, rozpoznawanie i synteza mowy ustnej.

Nazwa urządzenia (firma, kraj) Metoda analizy i rozpoznawania Rodzaj rozpoznawanej mowy Objętość słownika, słowa Wiarygodność rozpoznawania,% Dopuszczalny poziom zakłóceń Sposób adaptacji do reżysera Dostępność interfejsu telefonicznego Dostępność syntezatora mowy Obszar zastosowań
RECH-121 (ZSRR) Striptiz, DP Pojedyncze słowa (mowa ciągła) 99 (93 na 200 słów) (1-10) razy rzucone Jeść Jeść CAD, ACS, ASUPT
BARY (ZSRR) To samo Pojedyncze słowa Jednorazowa obsada To samo To samo CHAM
SYBERIA-1 (ZSRR) » To samo To samo NIE » Systemy wysyłkowe
SYRIUSZ-1 (ZSRR) Obcięty sygnał, DP » » To samo » Specjalny

4.4. Obiecujące systemy zagraniczne
Komunikacja werbalna

Spośród różnorodnych zagranicznych SRO przemysłowych rozważymy systemy, które naszym zdaniem są najbardziej obiecujące pod względem wdrożenia w nich zarówno nowych modeli teoretycznych, jak i osiągniętych wskaźników jakości syntezy i rozpoznawania mowy.

Przykładem wysokiej jakości syntezatora, za pomocą którego można odtwarzać mowę zbliżoną do naturalnej o różnych tempach i odcieniach bezpośrednio z tekstu nieograniczonego słownika, jest urządzenie DES-talk. Urządzenie DES-talk (patrz tabela 1.1) to blok o wymiarach 10 ─ 45 ─ 30 cm, na którego tylnym panelu znajdują się złącza do podłączenia komputera, terminala wideo i urządzenia drukującego, różnych urządzeń wyjściowych informacji, w tym telefon i wskaźnik LED, regulacja głośności. Wysoka jakość syntezatora DES-talk wynika z dużej biblioteki stosowanych reguł, możliwości wyboru słownika na życzenie użytkownika oraz jakości sprzętu do konwersji mowy. Użytkownik może wybrać siedem różnych głosów, w tym standardowy głos żeński, męski, dziecięcy, a także głęboki głos męski i głos starszy.

W urządzeniu DES-talk proces konwersji informacji tekstowej na mowę podzielony jest na trzy poziomy. W pierwszym słowa są konwertowane do postaci cyfrowej zgodnie z kodem ASCII i rozkładane na fonemy. Wykorzystuje zestaw reguł konwersji liter na dźwięki i dwa słowniki. Jedna zawiera 6000 słów, druga zawiera około 150 terminów szczegółowych, słów obcych i skrótów wprowadzonych przez użytkownika. Transformacje pierwszego poziomu rozpoczynają się od wyszukiwania słów referencyjnych pasujących do wejściowego tekstu ortograficznego w dużym słowniku. Jeżeli zostaną odnalezione standardy, wówczas tekst przetworzony na formę fonemiczną jest natychmiast przekazywany na drugi poziom przetwarzania. Jeżeli w żadnym ze słowników nie znajdziemy standardów, wówczas wprowadzony tekst jest przetwarzany zgodnie z zasadami zamiany liter na dźwięki i następnie przenoszony na drugi poziom. Na drugim poziomie czytane są fonemy, przeprowadzana jest analiza syntaktyczna, określana jest intonacja, czas trwania i akcent w wyrazach oraz wykonywane są obliczenia akustyczne. Na trzecim poziomie przeprowadzane są końcowe przekształcenia wejściowej informacji tekstowej i synteza mowy. Zsyntetyzowane sygnały cyfrowe są przesyłane z szybkością co najmniej 120 Kb/s do standardowego przetwornika cyfrowo-analogowego (DAC). Syntezator DES-talk wykorzystuje heurystyki do oceny wpływu otaczających słów na wymowę, intonację, czas trwania i akcent danego słowa.

Oprogramowanie syntezatora DES-talk jest niemal identyczne z oprogramowaniem istniejących terminali alfanumerycznych pracujących w standardzie ASCII, z wyjątkiem modułów definiujących format danych. Dlatego tworzenie oprogramowania jest łatwe, co otwiera szerokie obszary zastosowań syntezatora DES-talk.

Tworzenie obiecujących modeli rozpoznawania mowy wiąże się z chęcią osiągnięcia wysokiej niezawodności podczas pracy z dużymi słownikami (ponad 1000 słów) w trybie ciągłej wymowy. Najbliżej tego ideału jest system KVS-3000, którego słownik zawiera 10 000 słów, a dokładność rozpoznawania wynosi 95%. Aby przygotować urządzenie do pracy, należy trzykrotnie wypowiedzieć cały zestaw słów referencyjnych, dlatego pamięć urządzenia KVS-30 000 jest przystosowana do przechowywania 30 000 słów. Średni czas rozpoznawania wynosi około 500 ms.

Firma Verbex (USA) opracowała potężny system ciągłego rozpoznawania mowy - model Verbex-30 000, który pozwala rozpoznawać zdania o dowolnej długości, składające się z pojedynczych lub wypowiadanych w sposób ciągły słów. System ten koncentruje się na głosie jednego mówcy; gdy mówca się zmienia, konieczne jest przepisanie w pamięci RAM w celu przechowywania standardów słów. Model Verbex-30 000 zbudowany na architekturze „gwiazdy” zawiera 2-4 takie procesory mowy i może obsługiwać 120-360 słów. Każdy procesor zawiera 0,25 MB pamięci do przechowywania danych, a także pamięć do przechowywania 4000 instrukcji mikrokodu, każda o długości 64 bitów. Dodatkowo elastyczność konstrukcji systemu, zapewniona przez rozwiniętą strukturę elementów interfejsu, pozwala na wykorzystanie pamięci komputera centralnego. Szybkość procesora mowy wynosi 5 milionów operacji/s.

Architektura mikroprocesorowa systemu pozwala na szybkie działanie, co jest warunkiem koniecznym do wdrożenia algorytmu ciągłego rozpoznawania mowy. Proces rozpoznawania, polegający na wybraniu sekwencji standardowych słów, która najlepiej odpowiada tej wypowiedzianej przez użytkownika, odbywa się metodą DP. Wejściowe sygnały mowy są wzmacniane, filtrowane i kodowane przez procesor dźwięku, a następnie przesyłane do procesora sterującego w odstępach co 10 μs. Procesor sterujący rozdziela sygnał pomiędzy procesory mowy, co podkreśla jego właściwości fonetyczne. Twórcy systemu ustalili, że 16 takich cech wystarczy, aby zapewnić dokładność rozpoznawania na poziomie 99%. Proces rozpoznawania w procesorze sterującym i poszukiwanie wzorca przebiegają jednocześnie, czyli w momencie, gdy procesor „złapie” koniec mowy.

Aby uniknąć rozpoznania ewentualnych błędów na pierwszym etapie mających wpływ na wynik końcowy, system stale testuje wiele równoległych hipotez, porównując dane wejściowe z wyznaczonym gramatycznie zbiorem wszystkich normalnych wymów. Odpowiedź jest opóźniona do czasu sprawdzenia wszystkich hipotez i tego, co zostało powiedziane, odpowiada standardowi.

4,5. Trendy w użytkowaniu produktów
Komunikacja werbalna

Do niedawna większość prac związanych z utworzeniem SRO opierała się na idei kształtowania standardów akustycznych elementów mowy na różnych poziomach (fonemy, sylaby, słowa). W tym przypadku rozpoznawanie zostało zaimplementowane jako wykrywanie i identyfikacja tych standardów akustycznych w strumieniu mowy. Obecnie stało się oczywiste, że podejście to nie jest obiecujące ze względu na znaczną zmienność właściwości akustycznych sygnału mowy, związaną zarówno z czynnikami językowymi (efekty koartykulacji, redukcji, asymilacji), jak i pozajęzykowymi (indywidualna charakterystyka głosów mówiących, różnice w ich umiejętności wymowy, stan ośrodka przewodzącego itp.). Charakterystyka akustyczna fonemów charakteryzuje się szczególnie dużą zmiennością. Dlatego większość przemysłowych systemów rozpoznawania mowy porzuciła analizę fonemiczną i przyjęła słowo jako minimalny rozpoznawany element. Podejście to, choć na pewnym etapie badań nad mową dawało widoczne rezultaty, okazało się bezowocne przy rozwiązywaniu złożonych problemów rozpoznawania, takich jak rozpoznawanie mowy bez dostosowania się do mówiącego czy tworzenie systemów z dużymi słownikami. Zmusiło to nas do powrotu do idei analizy fonemicznej mowy na nowym poziomie jakościowym, która polega na modelowaniu różnych aspektów procesu przetwarzania informacji człowieka podczas percepcji mowy, wykorzystując wiedzę zgromadzoną w językoznawstwie, teorii percepcji i psychologii. Przy takim podejściu jednym z kardynalnych zadań rozpoznawania mowy jest wykrywanie i modelowanie tych mechanizmów percepcji mowy człowieka, które zapewniają stabilność i stabilność postrzeganych elementów mowy w warunkach ich ogromnej zmienności akustycznej.

Coraz powszechniejsze staje się podejście do rozwiązania problemu rozpoznawania mowy polegające na odczytywaniu przez specjalistę fonetyka dynamicznych spektrogramów nieznanego sygnału mowy. Zainteresowanie eksperymentami odczytu spektrogramów wynika po pierwsze z faktu, że ukazują one bogactwo informacji fonetycznej zawartej w sygnale mowy, przedstawionej w postaci trójwymiarowego wzoru widmowego (częstotliwość – czas – intensywność), a po drugie z faktu, że aby umożliwiały przełożenie wiedzy i umiejętności proceduralnych eksperta na systemy rozpoznawania mowy. Badania nad odczytem spektrogramów prowadzone są w różnych krajach, a obecnie głównym tematem tych badań jest problem identyfikacji i sformalizowania wiedzy
i umiejętności proceduralne ekspertów. Okazało się, że jest to proces bardzo złożony, gdyż eksperci nie zawsze potrafią wyrazić zasady i reguły, którymi się kierują podczas dekodowania akustyczno-fonetycznego spektrogramów mowy. Jednym z istotnych problemów jest implementacja do algorytmu reguł i wiedzy, które dla specjalisty wydają się oczywiste (np. F 420 nie może być wyższe niż 2500 Hz) lub trudne do sformułowania (np. zasada określania zwartości eksplozja przystanków). Aby pokonać te trudności związane z wydobywaniem i rejestrowaniem wiedzy eksperckiej, stosuje się systemy ekspertowe. Systemy ekspertowe różnią się od zwykłych programów komputerowych tym, że potrafią rozwiązywać problemy, które nie mają sztywnych rozwiązań algorytmicznych i wyciągać wnioski na podstawie niekompletnych lub nierzetelnych informacji. Dlatego znacznie lepiej nadają się do modelowania elastycznej aktywności człowieka, co zostało wykorzystane w badaniach mowy. Należy podkreślić, że w tych badaniach ES są wykorzystywane właśnie jako narzędzie analityczne służące do gromadzenia bazy wiedzy w procesie interakcji pomiędzy systemem a ekspertem. Używanie ES jako systemu uznawania jest nieskuteczne.

Drugą istotną trudnością w modelowaniu działalności eksperta fonetyka jest to, że wizualna analiza spektrogramów, która leży u podstaw działań dekodujących eksperta, jest nie mniej złożona niż słuchowe przetwarzanie sygnału mowy. Formalizując odczyt spektrogramów pojawia się trudny problem wydobycia cech akustycznych łatwo rozróżnialnych przez ludzki układ wzrokowy. Opracowując ES, wielu badaczy po prostu omija tę trudność. Jednak już z samego rozważenia zaistniałej sytuacji logicznie wynika idea obecności jakiegoś pośredniego poziomu kodowania informacji mowy w przejściu od parametrycznego opisu widma do jego interpretacji fonetycznej. Ponadto jako główny problem automatycznego rozpoznawania mowy podkreśla się potrzebę opracowania zasad pośredniego opisu sygnałów mowy. Należy zauważyć, że dopiero opis pośredni pozwala na zbudowanie pomostu pomiędzy bezpośrednio obserwowanym ciągłym sygnałem akustycznym a dyskretnym opisem językowym. Reprezentacja pośrednia opisuje „zachowanie” właściwości akustycznych, które jest w dużej mierze niezmienne w zależności od mówcy i zależy głównie od kontekstowej interakcji jednostek fonetycznych. W tym przypadku reprezentacja pośrednia z reguły wyrażana jest w formie jakościowej i opisana w kategoriach obecności - braku pewnych obiektów akustycznych, wysokiej - niskiej pozycji w widmie lub silnego - słabego przejawu jednego lub drugiego składnik energetyczny.

Zatem w procesie dekodowania akustyczno-fonetycznego następuje najpierw przejście od zmian ilościowych do opisu jakościowego, a następnie od opisów jakościowych do cech fonemów. Z reguły jednostki pośredniego poziomu reprezentacji informacji mowy nazywane są kluczami akustycznymi, znakami akustycznymi lub deskryptorami.

W Rosji prace nad odczytem spektrogramów przez ekspertów fonetycznych i opracowaniem zasad ich interpretacji fonemicznej i werbalnej prowadzone są od 1980 roku. Uzyskane wyniki pozwoliły na rozpoczęcie tworzenia sprzętowo-programowego modelu analizy mowy, który opiera się na algorytmach odczytu spektrogramów.

Jak dobrze było wcześniej! Dzwoniąc do działu pomocy, możesz porozmawiać z operatorką, a nawet umówić się z nią na spotkanie. Teraz na drugim końcu linii słychać przyjemny, ale martwy głos kobiecy, oferujący wybranie 1 w celu otrzymania takiej a takiej informacji, 2 w celu skontaktowania się z taką a taką, 3 w celu przejścia do menu itp. Coraz częściej dostęp do informacji jest kontrolowany przez system, a nie osobę. Ma to swoją logikę: monotonną, nieciekawą pracę wykonuje nie człowiek, ale maszyna. A dla użytkownika procedura uzyskiwania informacji jest uproszczona: nazwał określony zestaw liczb i otrzymał niezbędne informacje.

jak działa taki system? Spróbujmy to rozgryźć.

Dwa główne typy oprogramowania do rozpoznawania mowy to:

Programy do dyktowania wprowadzające tekst i dane cyfrowe.

Zarezerwujmy od razu, że nie będziemy brać pod uwagę systemów zamiany tekstu na mowę i mowy na tekst, czyli tłumaczenia tekstu na mowę ustną i odwrotnie. Ograniczymy się jedynie do systemów automatycznego rozpoznawania poleceń, czyli nawigatorów głosowych.

SAPP co to jest?

Systemy automatycznego rozpoznawania mowy (ASRR) są elementem procesu przetwarzania mowy, którego celem jest zapewnienie wygodnego dialogu pomiędzy użytkownikiem a maszyną. W szerokim znaczeniu mówimy o systemach, które dokonują dekodowania fonemicznego sygnału akustycznego mowy podczas wymawiania komunikatów głosowych w dowolnym stylu, przez dowolnego mówcę, bez uwzględnienia orientacji problemowej i ograniczeń objętości słownika. W wąskim znaczeniu CAPP ułatwiają rozwiązywanie konkretnych problemów, nakładając pewne ograniczenia na wymagania dotyczące rozpoznawania naturalnie brzmiącej mowy w jej klasycznym znaczeniu. Zatem gama odmian CAPP rozciąga się od prostych, samodzielnych urządzeń i zabawek dla dzieci, które są w stanie rozpoznać lub syntezować oddzielnie wymawiane słowa, liczby, miasta, nazwy itp., aż po super złożone systemy rozpoznawania naturalnie brzmiącej mowy i jej syntezy do wykorzystania na przykład jako asystent sekretarza (IBM VoiceType Simply Speaking Gold).

Będąc głównym elementem każdego przyjaznego interfejsu między maszyną a człowiekiem, CAPP można wbudować w różne aplikacje, na przykład w systemy sterowania głosowego, głosowego dostępu do zasobów informacyjnych, komputerowej nauki języków, pomocy osobom niepełnosprawnym, dostępu do coś poprzez systemy/identyfikację głosową.

CAPP jest bardzo przydatny jako sposób wyszukiwania i sortowania nagranych danych audio i wideo. Rozpoznawanie mowy wykorzystywane jest także przy wprowadzaniu informacji, co jest szczególnie przydatne, gdy ktoś ma zajęte oczy lub ręce. CAPP umożliwia osobom pracującym w stresujących warunkach (lekarzom w szpitalach, pracownikom przemysłowym, kierowcom) korzystanie z komputera w celu otrzymania lub wprowadzenia niezbędnych informacji.

CAPP jest zwykle stosowany w systemach takich jak aplikacje telefoniczne, systemy wbudowane (systemy wybierania numerów, obsługa PDA, prowadzenie pojazdów itp.), aplikacje multimedialne (systemy do nauki języków).

Klawisze głosowe

Klawisze głosowe nazywane są czasem automatycznymi systemami rozpoznawania osobowości na podstawie mowy. Zazwyczaj są to systemy biometryczne albo autoryzowanego dostępu do informacji, albo fizycznego dostępu do obiektów. Należy rozróżnić dwa rodzaje takich systemów: systemy weryfikacji i systemy identyfikacji. Podczas weryfikacji użytkownik najpierw podaje swój kod, czyli deklaruje się w ten czy inny sposób, a następnie wypowiada na głos hasło lub dowolną dowolną frazę. System sprawdza, czy dany głos odpowiada standardom, które zostały przywołane z pamięci komputera za pomocą prezentowanego kodu.

Podczas identyfikacji nie jest składane żadne wcześniejsze oświadczenie na temat użytkownika. W takim przypadku dokonuje się porównania tego głosu ze wszystkimi standardami i następnie konkretnie określa się, kim jest osoba identyfikowana przez głos. Obecnie znanych jest wiele podejść i metod wdrażania takich systemów, a wszystkie z reguły różnią się od siebie - ilu programistów, tyle odmian. To samo można powiedzieć o systemach rozpoznawania mowy. Dlatego też dopuszczalna jest ocena charakterystyki konkretnych systemów rozpoznawania mowy i rozpoznawania osobowości wykorzystujących mowę jedynie przy użyciu specjalnych testowych baz danych.

Trochę historii

Stany Zjednoczone Ameryki, koniec lat 60. XX w.: „Trzy” – powiedział Walter Cronkite, gospodarz popularnonaukowego programu „XXI wiek” podczas demonstracji najnowszych osiągnięć w rozpoznawaniu mowy. Komputer rozpoznał to słowo jako „cztery”. – Idiota – mruknął Walter. „Tego słowa nie ma w słowniku” – odpowiedział komputer.

Choć wczesny rozwój rozpoznawania mowy datuje się na lata dwudzieste XX wieku, pierwszy system powstał dopiero w 1952 roku w firmie Bell Laboratories (dziś część Lucent Technologies). A pierwszy komercyjny system powstał jeszcze później: w 1960 roku IBM ogłosił opracowanie takiego systemu, ale program nigdy nie trafił na rynek.

Następnie, w latach 70., linie Eastern Airlines w Stanach Zjednoczonych zainstalowały system wysyłki bagażu zależny od spikera: operator dzwonił do miejsca docelowego i bagaż był wysyłany w drogę. Jednak ze względu na ilość popełnionych błędów system nigdy nie przeszedł okresu próbnego.

Później rozwój w tej dziedzinie, jeśli w ogóle nastąpił, następował dość powolnie. Nawet w latach 80. rzeczywistych zastosowań komercyjnych wykorzystujących systemy rozpoznawania mowy było niewiele.

Dziś w tym kierunku pracują nie dziesiątki, ale setki zespołów badawczych w instytucjach naukowych i edukacyjnych, a także w dużych korporacjach. Można to ocenić na takich międzynarodowych forach naukowców i specjalistów w dziedzinie technologii mowy, jak ICASSP, EuroSpeech, ICPHS itp. Wyniki prac, które, jak mówimy w przenośni, „wlały cały świat” trudno przecenić.

Od kilku lat nawigatory głosowe, czyli systemy rozpoznawania poleceń, z powodzeniem wykorzystywane są w różnych obszarach działalności. Przykładowo call center OmniTouch dostarczone Watykanowi przez firmę Alcatel było wykorzystywane do obsługi wydarzeń organizowanych w ramach obchodów 2000-lecia Chrystusa. Pielgrzym dzwoniący do call center zadał swoje pytanie, a system automatycznego rozpoznawania mowy „wysłuchał” go. Jeśli system ustalił, że zadano pytanie na często spotykany temat, np. harmonogram wydarzeń czy adresy hoteli, uwzględniany był wcześniej nagrany wpis. W przypadku konieczności doprecyzowania pytania oferowano menu głosowe, w którym należało wskazać głosowo jedną z pozycji. Jeżeli system rozpoznawania ustalił, że na zadane pytanie nie została wcześniej nagrana odpowiedź, wówczas pielgrzyma łączono z ludzkim operatorem.

Szwecja uruchomiła niedawno automatyczną infolinię telefoniczną korzystającą z oprogramowania do rozpoznawania mowy firmy Philips. W pierwszym miesiącu działania serwisu Autosvar, który rozpoczął działalność bez oficjalnego ogłoszenia, z jego usług skorzystało 200 tys. klientów. Osoba musi wybrać konkretny numer, a po odebraniu przez automatycznego asystenta podać nazwę interesującej go sekcji katalogu informacyjnego.

Nowa usługa skierowana jest głównie do klientów prywatnych, którzy będą preferować ją ze względu na znacznie niższy koszt usług. Usługa Autosvar to pierwszy tego typu system w Europie (w USA AT&T rozpoczął testowanie podobnej usługi w grudniu ubiegłego roku).

Oto kilka przykładów zastosowania tej technologii w USA.

Pośrednicy w handlu nieruchomościami często zwracają się do Newport Wireless o swoje usługi. Kiedy pośrednik w obrocie nieruchomościami jedzie ulicą i widzi obok domu napis „Na sprzedaż”, dzwoni do Newport Wireless i prosi o informację o numerze domu przy takiej a takiej ulicy. Automatyczna sekretarka miłym kobiecym głosem opowiada mu o metrażu domu, dacie budowy i właścicielach. Wszystkie te informacje znajdują się w bazie danych Newport Wireless. Pośrednicy w obrocie nieruchomościami mogą jedynie wysyłać komunikaty do klienta. Opłata abonamentowa wynosi około 30 dolarów miesięcznie.

Julie, wirtualna agentka Amtrak, obsługuje pasażerów kolei od października 2001 roku. Informuje telefonicznie o rozkładach jazdy pociągów, ich przyjazdach i odjazdach, a także dokonuje rezerwacji biletów. Julie jest produktem oprogramowania SpeechWorks i sprzętu do rozmów głosowych. Zwiększyło już satysfakcję pasażerów o 45%; 13 na 50 klientów uzyskuje wszystkie potrzebne informacje z ust Julie. Firma Amtrak korzystała z systemu informacji opartego na tonie, ale stopień zadowolenia był niższy: tylko 9 na 50 klientów.

Amtrak przyznaje, że Julie odzyskała cenę (4 miliony dolarów) w ciągu 12–18 miesięcy. Dzięki temu możliwe było nie zatrudnianie całego zespołu pracowników. British Airways oszczędza 1,5 miliona dolarów rocznie, korzystając z technologii firmy Nuance Communications, która automatyzuje również dział pomocy technicznej.

Firma Sony Computer Entertainment America przedstawiła niedawno Socom, pierwszą grę wideo, w której gracze mogą wydawać ustne rozkazy rozmieszczaniu granatów. Gra za 60 dolarów wykorzystuje technologię ScanSoft. W zeszłym roku sprzedano 450 tysięcy tych gier, co czyni Socom niekwestionowanym liderem sprzedaży firmy.

W drogich samochodach typu Infinity i Jaguar od kilku lat zastosowano sterowanie werbalne za pomocą panelu sterowania: radio, regulacja temperatury i system nawigacji rozumieją głos właściciela samochodu i są mu posłuszne bez zastrzeżeń. Ale teraz technologia rozpoznawania głosu zaczyna być stosowana w samochodach klasy średniej. Tak więc od 2003 roku Honda Accord ma wbudowany identyfikator głosowy firmy IBM. Nazywa się ViaVoice i stanowi część systemu nawigacji wartego 2000 dolarów. Według dostawcy jedna piąta nabywców Hondy Accord wybrała model z systemem nawigacji aktywowanym głosem.

Nawet w medycynie technologia rozpoznawania głosu znalazła swoje miejsce. Opracowano już urządzenia do badania żołądka, które słuchają głosu lekarza. To prawda, że ​​\u200b\u200bwedług ekspertów urządzenia te są nadal niedoskonałe: wolno reagują na zalecenia lekarza. Ale jest jeszcze wiele przed nami. W Memphis VA Medical Center zainwestowało 277 000 dolarów w oprogramowanie Dragon, które umożliwia lekarzom i pielęgniarkom dyktowanie informacji w komputerowej bazie danych. Prawdopodobnie wkrótce nie będziesz musiał mieć trudności z odczytaniem pisma lekarza w dokumentacji medycznej.

Setki dużych firm korzysta już z technologii rozpoznawania głosu w swoich produktach lub usługach; należą do nich AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines i Verizo. Zdaniem ekspertów, w 2002 roku rynek technologii głosowych osiągnął poziom około 695 milionów dolarów, czyli o 10% więcej niż w roku 2001.

United Airways wprowadziło zautomatyzowany serwis informacyjny już w 1999 roku. Z automatycznych systemów przetwarzania rozmów telefonicznych korzystają takie firmy, jak bank inwestycyjny Charles Schwab & Co, sieć detaliczna Sears czy sieć supermarketów Roebuck. Amerykańscy operatorzy bezprzewodowi (AT&T Wireless i Sprint PCS) korzystają z podobnych programów i świadczą usługi wybierania głosowego od ponad roku. I choć Ameryka jest obecnie liderem pod względem liczby tego typu call center, to od niedawna także Europa zaczęła zdawać sobie sprawę z zalet systemów rozpoznawania mowy. Na przykład koleje szwajcarskie zapewniają już swoim niemieckojęzycznym pasażerom usługi podobne do tych oferowanych przez United Airways.

Prognozy analityków

Obecnie technologie rozpoznawania mowy uważane są za jedne z najbardziej obiecujących na świecie. Tym samym, według prognoz amerykańskiej firmy badawczej Cahners In-Stat, światowy rynek oprogramowania do rozpoznawania mowy wzrośnie z 200 milionów do 2,7 miliarda dolarów do 2005 roku. Według firmy Datamonitor wielkość rynku technologii głosowych wzrośnie średnio o 43% rocznie: z 650 mln dolarów w 2000 r. do 5,6 mld dolarów w 2006 r. (ryc. 1). Eksperci współpracujący z korporacją medialną CNN uznali rozpoznawanie mowy za jedną z ośmiu najbardziej obiecujących technologii tego roku. Analitycy IDC twierdzą, że do 2005 roku rozpoznawanie mowy całkowicie wyprze z rynku wszystkie inne technologie mowy (rys. 2).

Główne trudności

Głównym problemem pojawiającym się przy opracowywaniu CAPP jest zmienna wymowa tego samego słowa zarówno przez różne osoby, jak i przez tę samą osobę w różnych sytuacjach. Komuś nie będzie to przeszkadzać, ale komputerowi może. Dodatkowo na sygnał przychodzący wpływa wiele czynników, takich jak szum otoczenia, odbicia, echo i zakłócenia kanału. Sprawę komplikuje fakt, że szumy i zniekształcenia nie są z góry znane, czyli nie da się do nich dostosować systemu przed rozpoczęciem pracy.

Jednak ponad pół wieku pracy nad różnymi SAPP przyniosło efekty. Prawie każdy nowoczesny system może działać w kilku trybach. Po pierwsze, może być zależny lub niezależny od mówiącego. System zależny od mówiącego wymaga specjalnego przeszkolenia dostosowanego do użytkownika, aby dokładnie rozpoznać, co mówi użytkownik. Aby wyszkolić system, użytkownik musi wypowiedzieć kilka konkretnych słów lub fraz, które system przeanalizuje i zapamięta wyniki. Ten tryb jest zwykle używany w systemach dyktowania, gdy z systemem pracuje jeden użytkownik.

Z systemu niezależnego od głośników może korzystać każdy użytkownik bez konieczności przechodzenia szkolenia. Ten tryb jest zwykle używany, gdy nauka nie jest możliwa, na przykład w przypadku aplikacji telefonicznych. Oczywiste jest, że dokładność rozpoznawania systemu zależnego od głośnika jest wyższa niż w przypadku systemu niezależnego od głośnika. Jednak system niezależny od głośników jest wygodniejszy w użyciu, na przykład może pracować z nieograniczoną liczbą użytkowników i nie wymaga szkolenia.

Po drugie, systemy dzielą się na te, które działają tylko z izolowanymi poleceniami i te, które potrafią rozpoznawać spójną mowę. Rozpoznawanie mowy jest zadaniem znacznie bardziej złożonym niż rozpoznawanie poszczególnych wypowiadanych słów. Na przykład przy przejściu z rozpoznawania izolowanych słów na rozpoznawanie mowy ze słownikiem zawierającym 1000 słów współczynnik błędów wzrasta z 3,1 do 8,7, ponadto przetwarzanie mowy trwa trzy razy dłużej.

Izolowany tryb wypowiadania poleceń jest najprostszy i wymaga najmniejszego zaangażowania zasobów. Pracując w tym trybie, po każdym słowie użytkownik robi pauzę, czyli wyraźnie zaznacza granice słów. System nie musi szukać początku i końca słowa we frazie. System następnie porównuje rozpoznane słowo z przykładami w słowniku i przyjmuje najbardziej prawdopodobny model. Ten rodzaj rozpoznawania jest szeroko stosowany w telefonii zamiast konwencjonalnych metod DTMF.

Dodatkowe różnice w mowie powstają również w wyniku dowolnej intonacji, akcentu, luźnej struktury frazy, pauz, powtórzeń itp.

Na styku ciągłej i oddzielnej wymowy słów powstał tryb wyszukiwania słów kluczowych. W tym trybie CAPP znajduje predefiniowane słowo lub grupę słów w ogólnym strumieniu mowy. Gdzie można to zastosować? Na przykład w urządzeniach podsłuchowych, które włączają się i rozpoczynają nagrywanie, gdy w mowie pojawiają się określone słowa, lub w elektronicznych podręcznikach. Po otrzymaniu zapytania w dowolnej formie system identyfikuje słowa semantyczne i po ich rozpoznaniu dostarcza niezbędnych informacji.

Ważnym elementem CAPP jest wielkość używanego słownictwa. Oczywiście im większy słownik, tym większe prawdopodobieństwo, że system popełni błędy. W wielu nowoczesnych systemach możliwe jest uzupełnianie słowników o nowe słowa w miarę potrzeb lub ładowanie nowych słowników. Typowe wskaźniki błędów w systemie niezależnym od mówiącego z izolowaną wymową poleceń wynoszą około 1% dla słownika na 100 słów, 3% dla słownika na 600 słów i 10% dla słownika na 8000 słów.

Oferty współczesnego rynku CAPP

i CAPP z różnych firm są obecnie reprezentowane na rynku. Przyjrzyjmy się niektórym z nich.

Aculaba

Dokładność rozpoznawania wynosi 97%.

System niezależny od głośników. Twórcy systemu przeanalizowali różne bazy danych dla wielu języków, aby uwzględnić wszystkie różnice w mowie, które występują w zależności od wieku, głosu, płci i akcentu. Autorskie algorytmy zapewniają rozpoznawanie mowy niezależnie od charakterystyki sprzętu (słuchawki, mikrofon) i charakterystyki kanału.

System obsługuje możliwość tworzenia dodatkowych słowników uwzględniających specyfikę wymowy i akcentu. Jest to szczególnie przydatne w przypadkach, gdy z systemu korzystają osoby, których wymowa znacznie odbiega od ogólnie przyjętej.

System obsługuje najpopularniejsze języki, takie jak brytyjski i amerykański angielski, francuski, niemiecki, włoski, północnoamerykański hiszpański. Słownik można skonfigurować dla dowolnego z tych języków, jednak nie ma możliwości jednoczesnego korzystania z wielu języków w ramach tego samego słownika.

Produkt jest dostępny na systemach Windows NT/2000, Linux i Sun SPARC Solaris.

Babear SDK wersja 3.0

System niezależny od głośników, który nie wymaga szkolenia dla konkretnego użytkownika. Dopasowanie do użytkownika następuje podczas pracy i zapewnia najlepszy efekt rozpoznawania. Automatyczne dostosowanie do aktywności głosu umożliwia rozpoznawanie mowy w bardzo hałaśliwym otoczeniu, np. w samochodzie. System nie wykrywa słów, których nie ma w słowniku. Istnieje możliwość wyszukiwania słów kluczowych. System można skonfigurować do pracy zarówno z małym słownikiem (izolowane wypowiadanie poleceń), jak i dużym słownikiem (mową).

System obsługuje następujące języki: brytyjski i amerykański angielski, hiszpański niemiecki, francuski, duński, szwedzki, turecki, grecki, islandzki i arabski.

System działa na systemach Windows 98 (SE)/NT 4.0/2000/CE, Mac OS X i Linux.

Loquendo ASR

System niezależny od głośników, zoptymalizowany do użytku w telefonii. Możliwość rozpoznawania poszczególnych słów i mowy, wyszukiwania słów kluczowych (słownik do 500 słów). Umożliwia tworzenie przyjaznych dla użytkownika aplikacji dzięki dużemu słownictwu i elastyczności systemu.

Obsługuje 12 języków, w tym najpopularniejsze języki europejskie (włoski, hiszpański, brytyjski i amerykański angielski, francuski, niemiecki, grecki, szwedzki itp.).

Zawarty w pakiecie Loquendo Speech Suite wraz z zamianą tekstu na mowę i interpreterem Loquendo VoiceXML, który obsługuje wiele głosów i języków.

System działa na systemach MS Windows NT/2000, UNIX i Linux.

LumenVox

System niezależny od mówcy, który nie wymaga szkolenia, ale po dostosowaniu do konkretnego użytkownika wyniki rozpoznawania stają się znacznie lepsze: dokładność rozpoznawania przekracza 90%.

Obsługuje różne formaty plików audio: (u-law 8 kHz, PCM 8 kHz, PCM 16 kHz). Nie ma ścisłych wymagań dotyczących zasobów sprzętowych. Działa na systemach Windows NT/2000/XP i Linux.

Wymagania systemowe (w oparciu o system Windows):

Windows NT 4.0 z dodatkiem Service Pack 6a, Windows 2000 lub Windows XP Pro;

Minimalny rozmiar pamięci to 512 MB.

Wymagania systemowe (w oparciu o Red Hat Linux):

Red Hat Linux 7.2;

Intel Pentium III 800 MHz lub szybszy;

Pojemność pamięci 256 MB;

Rozmiar dysku 17 MB (po dekompresji).

Niuans

Według producentów system jest zoptymalizowany pod kątem najniższego zużycia pamięci i innych zasobów systemowych. Dokładność rozpoznawania sięga 96% i pozostaje wysoka nawet w hałaśliwym pomieszczeniu.

Istnieje możliwość samouczenia się systemu i dostosowania go do każdego użytkownika.

Działa na systemach Windows 2000 i Linux.

DUCH

Język może być dowolny (słownik jest tworzony pod konkretne wymagania klienta i zawiera te słowa w języku, który klient określił w wymaganiach ustawień systemu. Słownik może zawierać słowa z różnych języków, czyli bez zmiany języka ustawienia system rozpoznaje słowa np. chińskie i fińskie, jeśli zostały wcześniej wprowadzone do słownika). Zatem ten system może działać z dowolnym językiem, podczas gdy inne systemy mogą działać tylko z określonym ich zestawem.

Jest to automatyczny system rozpoznawania mowy, który zapewnia wysoką jakość rozpoznawania nawet w bardzo hałaśliwym otoczeniu. System można łatwo skonfigurować do pracy w jednym z dwóch trybów: rozpoznawania zwrotów o ustalonej liczbie poleceń (wymowa poszczególnych poleceń, tryb kodu PIN) oraz rozpoznawania zwrotów o dowolnej liczbie poleceń (ciągłe wymawianie poleceń, „ tryb spójnej mowy”). Istnieje możliwość wyszukiwania słów kluczowych. Rozwiązanie to sprawdza się w warunkach addytywnego szumu niestacjonarnego. Wymagany stosunek sygnału do szumu wynosi do 0 dB w „trybie kodu PIN” i do +15 dB w trybie mowy spójnej.

Opóźnienie rozpoznania 0,2 s. Parametry kanału akustycznego: szerokość pasma w zakresie 300-3500 Hz. Dostosowanie do środowiska akustycznego odbywa się na podstawie fragmentów hałasu o łącznej długości co najmniej 3 s.

Dla „trybu kodu PIN”:

Słownik 50 poleceń;

Prawdopodobieństwo prawidłowego rozpoznania wynosi 95-99% przy SNR = 0...6 dB;

Wymagane warunki akustyczne: addytywny szerokopasmowy szum statyczny o SNR (stosunek sygnału do szumu) >= 15 dB.

W przypadku połączonego trybu rozpoznawania mowy:

Słownik 12 słów/cyfr;

Prawdopodobieństwo prawidłowego rozpoznania ciągu słów wynosi 98-99%.

Specyfika: adaptacja do dowolnego hałasu.

System automatycznego rozpoznawania mowy SPIRIT jest dostępny jako aplikacja komputerowa dla systemu MS Windows lub jako kod w asemblerze. Na życzenie klienta rozwiązanie może zostać przeniesione na dowolną platformę DSP lub RISC.

Oprogramowanie VoiceWare

System może pracować zarówno w trybie zależnym od głośnika, jak i niezależnym od głośnika, dzięki czemu nie jest wymagane specjalne szkolenie systemu do pracy z konkretnym użytkownikiem.

Zapewnia wysoką dokładność rozpoznawania i działanie w czasie rzeczywistym, nawet w hałaśliwym otoczeniu.

System rozpoznaje mowę spójną i sekwencyjną listę liczb.

Słowa, których nie ma w słowniku i obcy hałas, nie są przez niego postrzegane, a słowa bez znaczenia, takie jak „a”, „dobrze” itp. Są odrzucane.

Do słownika można dodawać nowe słowa.

System automatycznie dostosowuje się do tonu użytkownika, wymowy i innych cech mowy.

VoiceWare obsługuje angielski i koreański; Chiński i japoński są w fazie rozwoju.

System działa na systemach Windows 95/98/NT 4.0, UNIX i Linux.