特定人的語音識別系統(tǒng)指識別字、短語、句子,而不管說話人是誰。目 前已經能夠識別4000個甚至更多個單詞及由它們所組成的簡單句子。
由于上述識別系統(tǒng)都是針對非特定人的,所以它與特定人的語音識別系統(tǒng) 相比,一般性要求較高。語言識別系統(tǒng)可以懂得話音的含義。這種系統(tǒng)先要把 話音分割成單詞(或音素),然后進行語法分析,Z后辨識出話音的含義,可見 這種系統(tǒng)是相當復雜的。在小詞匯量語音識別方面,用得Z多的是模式匹配方 法,實用的系統(tǒng)已經出現(xiàn);基于統(tǒng)計模型的隱 Markov 模型,則在大詞匯量的語 音識別上取得了很大的進展,但目前尚在研究發(fā)展之中,可靠性有待進一步提 高。實現(xiàn)非特定人語音識別的流程如圖4-19所示。相比之下,數(shù)字音識別系統(tǒng) 比較簡單。這種語音識別系統(tǒng)的工作原理與特定人的語音識別系統(tǒng)有很多相同之 處,這里只介紹連續(xù)數(shù)字音識別系統(tǒng)。
除此之外,還要發(fā)現(xiàn)很多語言中的規(guī)律,在這些規(guī)律中,重要的有:
①字的起點可能發(fā)生在如下處:“靜”和“無振”時間段的銜接處,幅度 隨時間陡升處,過零率隨時間陡升處;“有振”、“無振”時間段銜接處和幅度 與時間關系曲線的凹陷處。
②字的終點可能發(fā)生在如下處:“有振”和“靜”的時間段銜接處;“無 振”和“靜”的時間段銜接處及幅度隨時間陡降處。
③在“無振”和“有振”的銜接處。如果同時出現(xiàn)幅度隨時間陡升和過零 率隨時間陡降,那么這里不是字的起、終點的分界。
接下來,把各個短時間段的各個特征按照上面的分割方法劃分成三個組(即 將每個字的字音分成一個組),分別送進“音的識別”部分去作每個字的識別。 然而,在“音的識別”部分中,事先存儲有十個數(shù)目字話音(0~9),在每個短 時間段的判別量設為:g₁(x₁,x₂,x₃)、82(x,x₂,x₃)、g₃(x₁,x₂,x₃), 其 中 x₁代表幅度,x₂ 代表過零率,x₃ 代表線性預測系數(shù)等。當?shù)玫酱R別的數(shù)目字 話音的各個特征時,把它們與事先存儲的判別量進行比較,找出Z接近的字作為 判別結果。
和特定人的語音識別系統(tǒng)一樣,在作比較之前也要經過“時間對應步 驟”,把待識別字的各個短時間段在一定范圍內作些調整,使調整后的短時間段 數(shù)目和存儲在“音的識別”部分的字的短時段數(shù)目一樣,再把調整后的短時間段 的特征代入判別函數(shù)里。在這種模板匹配法的語音識別系統(tǒng)中,標準模板是否具 有代表性,直接影響識別的精度。即使是同一個人說同一個單詞,其發(fā)音也會有 差異,這就是發(fā)音的離散性。這種離散性造成了產生標準模板的困難。假設這種 離散性使語音特征分布在一個區(qū)域里面而不是集中在一個點,那么我們應當找出 這個區(qū)域中心點并將其作為標準特征值,這個過程稱為語音識別中的樣本優(yōu)化。
還應當指出,在正確提取語音特征的前提下,如何減少計算量是一個重要 問題,它關系到語音識別系統(tǒng)的復雜程度、成本和實時性。聽覺系統(tǒng)除了用于識別人的聲音之外,還可以在工作現(xiàn)場利用傳聲器捕捉音響來證實一個工序的開始 與結束、檢測異常聲音等。利用超聲波的聽覺系統(tǒng)還可以測量對象物的位置和尺 寸。超聲波聽覺系統(tǒng)在測量、檢測等方面有廣泛的應用。
![]() |
| 機器人底盤 Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動機器人底盤 商用機器人 智能垃圾站 智能服務機器人 大屏機器人 霧化消毒機器人 展廳機器人 服務機器人底盤 具身智能教育機器人 智能配送機器人 導覽機器人 |