語音辨識

 

何謂語音

 

  所謂語音,是泛指任何我們耳朵所能聽見的聲音,但不包括利用音樂處理晶片所製造的音樂。因為我們在做語音處理時,所播錄的語音資料與我們耳朵所聽見的聲音是相同的;而利用音樂處理晶片所製造的音樂,與我們所聽見的聲音並不一樣。

 

認識語音信號

 

  任何信號都可以波的形式表示,語音信號也不例外。談到波形,不免要談到振幅、週期等等。而像語音訊號的波形,我們可以在不同的時間區段上找到不同的週期,造成這種現象的主要原因,乃是因為語音訊號本身是由很多具有不同週期的訊號所組成。這種週期隨時間變化的訊號,我們稱為非固定式(nonstationary)的訊號。而固定式如sin,cos,

  然而對非固定式的訊號來說,要辨識它們並不容易,以語音訊號來說,由於在不同的時間區段有不同的週期與振幅大小,因此一段非固定式的訊號所具有的週期與振幅等參數數目,都比固定式的訊號來得多。雖然語音是非固定式的訊號。這樣一來,我們就可以用處理固定式的訊號的方式來對不固定式的訊號來作處理。再語音處理上,每一時間區段是一個短時距(short time)或被稱為一個音框(frame)。

  語音訊號還有一項重要的特性:在不同時間,雖然說的是同一句話或一個音,但其波形卻不儘相同,也可以說語音是一種隨時間而變的動態性訊號,做語音辨識就是要從這些動態的訊號中,找出規律性,一旦找到規律性之後,訊號在怎麼隨時間變化,大抵都能指出它們的特性所在,進而把它們辨識出來,這種規律性在語音辨識上稱為特徵參數,也就是能夠代表訊號特性的參數。語音辨識的基本原理就是以這些特徵參數做基礎。

 

anarrow.gif (1450 bytes)下一頁   replay.gif (15720 bytes)回首頁