AUTOMATYCZNA REAKCJA GŁOSOWA NA ZAMÓWIENIA

Ze względu na swoją wirtualną wszechobecność telefon, aw coraz większym stopniu telefon komórkowy, oferuje potencjał dla innych, bardziej ambitnych usług. Jednym z nich jest automatyczne rozpoznawanie głosu. Od wielu lat mówi się o zdolności komputerów do rozpoznawania mowy, a na rynku istnieje wiele dochodowych produktów, które to potrafią. Niestety twierdzenia te mogą być dość mylące. Istnieją zazwyczaj poważne ograniczenia otaczające systemy, które twierdzą, że wyniki są „prawie doskonałe”: mogą działać tylko z jednym mówcą, na którym zostali przeszkoleni, ich słownictwo rozpoznawania może mieścić się w bardzo ograniczonym słownictwie, słowa muszą być wypowiadane ostrożnie i w izolacja i tak dalej. Wydajność systemów rozpoznawania głosu poprawia się, ale oparcie systemu przyjmowania zamówień do użytku ogółu społeczeństwa, który miał obsługiwać nieograniczone zapytania, w dowolnym słownictwie i akcencie, na całkowicie zautomatyzowanym systemie, byłoby niezwykle ryzykowne. Częściową odpowiedzią jest użycie procesu, który ogranicza prawdopodobny zestaw wypowiedzi, które klient prawdopodobnie wygłosi na dowolnym etapie rozmowy. Nazywa się to konstruowaniem lub projektowaniem dialogów. Dzięki umiejętnie zaprojektowanemu dialogowi można używać stosunkowo prostego i podatnego na błędy rozpoznawania mowy, ale nadal osiągać wysoką ogólną dokładność. Rozważ proces przyjmowania zamówienia na niektóre towary, w przypadku, gdy mamy zestaw zarejestrowanych klientów, których nazwiska i kody kont są znane. System rozpoznawania mowy został przeszkolony w rozpoznawaniu cyfr od 0 do 9, „tak” i „nie” oraz wymawianych imion klientów posiadających konto. (Ostatnie można zrobić, zlecając im wypowiadanie swoich nazwisk przez linię podczas rejestracji w usłudze.) Po tym, jak użytkownik odpowie na żądanie maszyny o podanie nazwy, system próbuje następnie zidentyfikować nazwę, porównując wypowiedziane nazwę z przykładami, które już zapisał. Stanowi pewną liczbową miarę „zbliżenia” między słowem mówionym a tymi przykładami i zachowuje wartości dla kilku pierwszych. Następnie zadaje kolejne pytanie: „Numer konta?”. Ponownie oblicza kilka najlepszych domysłów i ich bliskość do wypowiadanego ciągu liczb. Następnie może przyjrzeć się wspólnej bliskości nazwy i numeru konta i podać złożoną wartość, która pozwoli mu dokonać dobrego osądu. Nawet wtedy istnieje możliwość, że się myli i przekazuje swoją decyzję klientowi. Klient może potwierdzić („Tak”) lub odrzucić („Nie”) decyzję, a w razie potrzeby proces można powtórzyć. W przypadku całkowitej awarii – co zdarza się czasem w przypadku niektórych mówców – system może po prostu przekazać te sporadyczne awarie jednemu z bardzo niewielkiej liczby ludzkich operatorów „obsługi wyjątków”. Zwróć uwagę, że projekt dialogu może być skonstruowany niezależnie od algorytmu rozpoznawania mowy używanego do pomiaru „bliskości”. Oznacza to, że możliwe jest uwzględnienie wszelkich postępów w algorytmach bez konieczności zmiany dialogu.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *