基于十字形聲陣列寬帶波束形成的聲識別方法
【專利摘要】本發(fā)明公開了一種基于十字形聲陣列寬帶波束形成的聲識別方法。本發(fā)明包括如下步驟:1、將十字形聲陣列對準(zhǔn)所需方向采集聲音信號;2、對采集到聲音信號進(jìn)行預(yù)處理;3、對預(yù)處理后的每一幀數(shù)據(jù)進(jìn)行離散傅里葉變換,然后根據(jù)需要的頻帶進(jìn)行頻帶提取;4、提取的各頻帶分別在所需方向上進(jìn)行LSMI?MVDR波束形成。5、將波束形成后的頻域信號進(jìn)行逆離散傅里葉變換;6、對應(yīng)分幀時(shí)的原則進(jìn)行幀重疊合成,輸出信號;7、對輸出信號進(jìn)行特征提取和分類學(xué)習(xí)、識別。本發(fā)明能夠提高期望方向接收信號的信噪比并且抑制其他方向的干擾信號,將其用于聲音識別系統(tǒng)的信號處理階段,能夠有效的提高識別系統(tǒng)對識別對象的識別率和可靠性。
【專利說明】
基于十字形聲陣列寬帶波束形成的聲識別方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于信號處理技術(shù)領(lǐng)域,尤其設(shè)及一種基于十字形聲陣列寬帶波束形成的 聲識別方法。
【背景技術(shù)】
[0002] 傳統(tǒng)的單傳聲器聲識別系統(tǒng)中,存在W下幾個(gè)問題:
[0003] 1.聲識別系統(tǒng)只需要對某一個(gè)方向的信號進(jìn)行識別,然而由于單個(gè)傳聲器的全向 性,當(dāng)識別對象并不在該方向附近時(shí),識別系統(tǒng)依然會被觸發(fā),從而造成了誤警。
[0004] 2.在真實(shí)的復(fù)雜環(huán)境中,識別對象附近存在多種干擾聲源W及嚴(yán)重的背景噪聲, 運(yùn)就會造成系統(tǒng)的整體識別率急劇下降,誤警率、漏警率會急劇上升。
[0005] 3.在實(shí)際應(yīng)用中,為了提高識別系統(tǒng)的作用區(qū)域的極限距離,就會使用高靈敏度 的傳聲器,然而高靈敏的傳聲器勢必會導(dǎo)致背景噪聲的增強(qiáng),從而造成對遠(yuǎn)距離的識別率 并不會有著明顯的增高,反而會下降。
【發(fā)明內(nèi)容】
[0006] 針對W上問題,本發(fā)明提供了一種基于十字形聲陣列寬帶波束形成的聲識別方 法。
[0007] 為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案包括如下步驟:
[000引步驟1、將十字形聲陣列對準(zhǔn)所需方向采集4通道聲音信號;
[0009] 步驟2、對采集到的4通道聲音信號進(jìn)行預(yù)處理,包括分帖、加窗;
[0010] 步驟3、對預(yù)處理后的每一帖數(shù)據(jù)進(jìn)行離散傅里葉變換,離散傅里葉變換后的4通 道聲音信號根據(jù)需要的頻帶進(jìn)行頻帶提取;
[0011] 步驟4、提取的各頻帶分別在所需方向上進(jìn)行LSMI-MVDR波束形成;
[0012] 步驟5、將波束形成后的頻域信號進(jìn)行逆離散傅里葉變換;
[0013] 步驟6、對應(yīng)分帖時(shí)的原則進(jìn)行帖重疊合成,輸出信號;
[0014] 步驟7、對輸出信號進(jìn)行特征提取和分類學(xué)習(xí)、識別。
[0015] 所述的步驟1:將十字形聲陣列的其中一個(gè)通道對準(zhǔn)聲源方向,作為LSMI-MVDR寬 帶波束形成的方向,采集4通道聲音信號,采樣頻率記為fs。
[0016] 所述的步驟2:預(yù)處理包括數(shù)據(jù)的分帖、加窗,對聲音信號進(jìn)行分帖,聲音信號每帖 選取1024個(gè)采樣點(diǎn),帖移為512個(gè)采樣點(diǎn);然后采用漢明窗對聲音信號進(jìn)行加窗;
[0017] 所述的步驟3:通過FFT來實(shí)現(xiàn)信號的離散傅里葉變換,其中,每一帖信號經(jīng)過FFT 后頻率分辨率為第P個(gè)通道的第m帖信號經(jīng)過FFT后的結(jié)果為:
[001 引
[0019]其中,L=1024為每一帖的長度,為第P個(gè)通道第m帖的信號,k為是各個(gè)頻 帶的編號,其對應(yīng)的中屯、頻率為:
[0020]
[0021] 然后,根據(jù)蘆音信號的頻率特性,選取相應(yīng)的頻率帶,比如信號所在的頻率帶為
[fi,f2],貝峨們提取FFT后的k所在的區(qū)間另
。
[0022] 所述的步驟4:設(shè)第k個(gè)頻帶的中屯、頻率為fk,則對于十字形陣列,首先將十字形陣 列建立在直角坐標(biāo)系下,則十字形陣列接收到的第m帖信號在時(shí)域內(nèi)表示為:
-子 、'一
[C ' Cl)
[0024] 其中,S(t)為聲源信號,它的方位角為0;
為方向矢量;
是噪聲向量;O為s(t)的中屯、角頻率,Tp(0)(p = l,2,3,4)是第p個(gè)陣元相 對于參考點(diǎn)即坐標(biāo)原點(diǎn)的延時(shí),對于十字形聲陣列,其值為:
[0025]
[0026] C是聲音在空氣中的傳播速度,r是十字形聲陣列的半徑。
[0027] 將(1)式進(jìn)行離散傅里葉變換得到在頻域下表示方式為 -''I''
[002引
[0029] 其中,k = 0,I,. . .,L-1; a(目,fk)是中屯、頻率為fk的第k個(gè)頻帶所對應(yīng)的方向矢量, 即
[0030]
[0031] 對于MVDR波束形成原理,表述為在保證期望方向0de的信號功率不變的情況下,使 給t山於TTll盛鳥/1、刖
[0032] VV
[0033] 其中,R = E[X化)XH(k)]是接收信號在頻域下的自相關(guān)矩陣。在實(shí)際應(yīng)用中,用估 計(jì)值巧來替代R,估計(jì)值巧的計(jì)算如下:
[0034;
[0035] 其中Nf表示聲音信號的帖數(shù)。
[0036] 因此,MVDR波束形成的最值權(quán)矢量WDDt為:
[0037]
[003引
是一個(gè)比例系數(shù)。
[0039] 為了提高M(jìn)VDR波束形成的穩(wěn)健性,我們使用基于對角加載的改進(jìn)MVDR波束形成算
法,其原理是在自巧關(guān)巧降的對巧線K增化一個(gè)加載量,即
[0040
[0041
[0042
[0043 3;
[0044
[0045]所述的步驟5:將第m帖頻域信號Yfml化)通過逆離散傅里葉變換轉(zhuǎn)換到時(shí)域,其中 逆離散傅里葉變換通過IFFT來實(shí)現(xiàn),其中第m帖時(shí)域信號/">( i)為:
[0046]
[0047] 所述的步驟6:將經(jīng)過逆離散傅里葉變換的各帖聲音信號按照分帖時(shí)的原則進(jìn)行 重疊,然后再輸出信號;其中:第一帖信號不變,后面每一帖信號去掉前面的512個(gè)點(diǎn),只保 留后512點(diǎn),然后再添加到前一帖信號后面。
[004引所述的步驟7:將輸出信號作為原始信號,進(jìn)行特征提取和分類學(xué)習(xí)、識別。其中, 聲音的特征提取算法主要有線性預(yù)測倒譜系數(shù)化inear Prediction Cepstral Coefficients,LPCC)或者梅爾頻率倒譜系數(shù)(Mel Frequenc^y Cepstrum Coefficient, MFCC)等,而分類學(xué)習(xí)識別算法主要有支持向量機(jī)(Suppod Vector Machine,SVM)或者極 限學(xué)習(xí)機(jī)化xtreme Learning Machine,ELM)等。
[0049] 本發(fā)明有益效果如下:
[0050] 本發(fā)明使用4通道十字形聲陣列采集聲音信號數(shù)據(jù)進(jìn)行LSMI-MVDR寬帶波束形成, 能夠提高期望方向接收信號的信噪比并且抑制其他方向的干擾信號,達(dá)到空間濾波和噪聲 抑制的效果,提高的接收信號的信干噪比,非常有效的解決了上述的提到的缺陷,將其用于 聲音識別系統(tǒng)的信號處理階段,可W有效的提高識別系統(tǒng)對識別對象的識別率和可靠性。
【附圖說明】
[0051] 圖1是本發(fā)明提出的基于4通道十字形聲陣列LSMI-MVDR寬帶波束形成的聲識別方 法的流程圖
[0052] 圖2是基于LSMI-MVDR算法的寬帶波束形成的流程圖
[0053] 圖3是識別系統(tǒng)的特征提取、模型庫建立和識別部分的流程示意圖
[0054] 圖4為4通道十字形聲陣列建立在直角坐標(biāo)系下的結(jié)構(gòu)圖
【具體實(shí)施方式】
[0055] 下面結(jié)合附圖和【具體實(shí)施方式】對本發(fā)明作詳細(xì)說明,W下描述僅作為示范和解 釋,并不對本發(fā)明作任何形式上的限制。
[0056] 如圖4所示為4通道十字形聲陣列建立在直角坐標(biāo)系下的結(jié)構(gòu)圖,其中d為兩個(gè)相 鄰傳聲器的間距;r為十字形陣列的半徑;S(t)為聲源,它的方向?yàn)?;圖中的A、B、C、D分別對 應(yīng)于通道1、通道2、通道3、通道4。假設(shè)只需要識別0度方向的信號,則將十字形聲陣列的通 道1對準(zhǔn)0度方向,即在圖4中,使得聲源位于X軸正半軸上,然后采集信號,總共會采集至Ij4個(gè) 通道的信號,分別記為Xl(t),X2(t),X3(t),X4(t)。
[0057] 圖2展示了基于LSMI-MVDR算法的寬帶波束形成的實(shí)現(xiàn)流程圖,按照圖2中的步驟, 我們首先將4通道信號分別進(jìn)行分帖加窗,其中帖長為1024,帖移為512,加漢明窗。
[005引將4通道的每一帖后的數(shù)據(jù)通過FFT算法進(jìn)行離散傅里葉變換。第P個(gè)通道的第m帖 信號FFT后的結(jié)果為,
[0化9]
[0060] 第k個(gè)頻帶對應(yīng)的中屯、頻率為
[0061]
[0062] 假設(shè),我們需要進(jìn)行波束形成的信號頻帶的區(qū)間為[fi,f2],則對應(yīng)的頻帶編號k的 區(qū)間關(guān)
,其中floor為向下取整函數(shù)。然后取出各通道同一 帖下k對應(yīng)的FFT結(jié)果;寫成向量形式,比如我們?nèi)〕龈魍ǖ赖趍帖信號第k個(gè)頻帶 為
[0063]
[0064] 接下來W第k個(gè)頻帶為例來講述LSMI-MVDR波束形成,其他的頻帶都通過同樣的方 法來進(jìn)行LSMI-MVDR波束形成。
[0065] 首先,我們需要估計(jì)接收信號的自相關(guān)矩陣,通過
[0066]
[0067]來進(jìn)行估計(jì),其中Nf為采集的信號分帖后的總帖帖數(shù)。然后計(jì)算期望方向(本例中 是0度方向)的方向矢量曰(〇°,fk),其中fk表示第k個(gè)頻帶的中屯、頻率,a(0° ,fk)的計(jì)算公式 為
[006引
[0069] 得到自相關(guān)矩陣和方向矢量后,就可W計(jì)算LSMI-MVDR波束形成的最優(yōu)權(quán)矢量的 比例系數(shù)y,其值為
[0070]
[0071] 然后我們需要確認(rèn)對角加載量A的值,該值可W通過組成十字形聲陣列的傳聲器 參數(shù)W及各傳聲器的幅相響應(yīng)的差別來確定,或者也可W根據(jù)LSMI-MVDR波束形成后的波 束響應(yīng)圖來不斷進(jìn)行調(diào)整W確定一個(gè)比較好的加載量A。當(dāng)A被確定后,就可W計(jì)算LSMI- MVDR波束形成的最優(yōu)權(quán)矢量,公式為
[0072]
[0073] 將第k個(gè)頻帶下求出的最優(yōu)權(quán)矢量分別對每一帖信號的第k個(gè)頻帶信號進(jìn)行處理, 得到運(yùn)一偵信號的LSMI-MVDR妮巧形成繩果
[0074]
[0075] 通過同樣的方法對其他頻帶進(jìn)行LSMI-MVDR波束形成。
[0076] 將各帖下LSMI-MVDR波束形成后的各頻帶合成在一起進(jìn)行逆離散傅里葉變換,通 過IFFT進(jìn)行,IFFT后的第m帖信號結(jié)果為
[0077]
[0078] 最后,需要將各帖信號進(jìn)行合成輸出,由于我們分帖時(shí)采取的帖移是512個(gè)點(diǎn),即 有512個(gè)點(diǎn)的重疊。因此,在將各帖信號進(jìn)行重疊輸出時(shí),也需要采取同樣的方式。首先,第 1帖信號不做改變,從第二帖信號開始,我們只取后512個(gè)點(diǎn),而前512個(gè)點(diǎn)我去舍去,然后將 后512個(gè)采樣點(diǎn)疊加到上一帖的尾端。通過運(yùn)種方式就完成了信號的合成。
[0079] 經(jīng)過LSMI-MVDR波束形成后的數(shù)據(jù)就可W作為聲識別系統(tǒng)的輸入進(jìn)行特征提取W 及分類學(xué)習(xí)識別的輸入。圖3展示了識別系統(tǒng)的特征提取、模型庫建立和識別部分的流程示 意圖。在運(yùn)里我們WLPCC特征提取和SVM分類學(xué)習(xí)算法為例來說明,其中,我們使用16階 LPCC系數(shù),SVM的核函數(shù)我們選取徑向基函數(shù)(Radia 1 Bas i S化nction,RBF),需要進(jìn)行識 別的聲音類型有A1,A2,A3S種類型。
[0080] 首先,我們將經(jīng)過LSMI-MVDR波束形成后的聲音進(jìn)行分帖加窗。然后求得每帖信號 的12階線性預(yù)測系數(shù)(^Linear Prediction Coefficients,LPC)值,其中LPC值可W采用 Levinson-Durbin算法來求解。接下來通過LPCC值與LPC值的對應(yīng)關(guān)系求得16階的LPCC值。 [0081 ]所述的聲指紋庫建立方法如下:
[0082] 對每帖信號提取出來的16階LPCC值按行排列,然后在前面加入一列作為類標(biāo),標(biāo) 號'0'代表Al,'1'代表A2,'2'代表A3。從而構(gòu)成一個(gè)17階的特征向量。
[0083] 用現(xiàn)有的Iibsvm庫來實(shí)現(xiàn)SVM算法,選取RBF作為分類器函數(shù);RBF有兩個(gè)參數(shù):懲 罰因子C W及參數(shù)gamma,可W通過Iibsvm的網(wǎng)格捜索函數(shù)opt i_svm_coeff選取出最優(yōu)數(shù) 值。
[0084] 訓(xùn)練過程使用1 ibsvm庫中的svnrtrain函數(shù),包含四個(gè)參數(shù):特征向量,用上述提取 出的有標(biāo)號的LPCC值;核函數(shù)類型,選用RBF核函數(shù);RBF核函數(shù)參數(shù)C和gamma,使用網(wǎng)格捜 索法確定;調(diào)用svmtrain后會得到一個(gè)名為model的變量,運(yùn)一變量保存了訓(xùn)練所得模型信 息,即所述的聲指紋庫,將運(yùn)一變量保存下來供下一步識別用。
[0085] 而聲音的識別是通過Iibsvm庫中的svmtest來實(shí)現(xiàn)的,將每帖信號得到的LPCC值 用Iibsvm的svmtest函數(shù)進(jìn)行智能分類,svmtest有S個(gè)參數(shù):第一個(gè)為類標(biāo),用來測試識別 率用的(在對未知類型的聲音進(jìn)行識別時(shí),該參數(shù)不具有實(shí)際意義);第二個(gè)為特征向量,即 存儲LPCC值的變量,第S個(gè)為匹配模型,就是上述步驟訓(xùn)練過程svmtrain函數(shù)的返回值。調(diào) 用svmtest得到的返回值就是分類所得結(jié)果,即類標(biāo),從而能確定產(chǎn)生運(yùn)一聲音的設(shè)備類 型。
[0086] 在實(shí)際應(yīng)用中時(shí),將實(shí)際采集到的聲信號先進(jìn)行LSMI-MVDR波束形成算法進(jìn)行濾 波,然后提取特征與已建立的聲指紋庫進(jìn)行比較,來做到識別。其具體流程圖見圖1。
【主權(quán)項(xiàng)】
1. 基于十字形聲陣列寬帶波束形成的聲識別方法,其特征在于包括如下步驟: 步驟1、將十字形聲陣列對準(zhǔn)所需方向采集4通道聲音信號; 步驟2、對采集到的4通道聲音信號進(jìn)行預(yù)處理,包括分幀、加窗; 步驟3、對預(yù)處理后的每一幀數(shù)據(jù)進(jìn)行離散傅里葉變換,離散傅里葉變換后的4通道聲 音信號根據(jù)需要的頻帶進(jìn)行頻帶提??; 步驟4、提取的各頻帶分別在所需方向上進(jìn)行LSMI-MVDR波束形成; 步驟5、將波束形成后的頻域信號進(jìn)行逆離散傅里葉變換; 步驟6、對應(yīng)分幀時(shí)的原則進(jìn)行幀重疊合成,輸出信號; 步驟7、對輸出信號進(jìn)行特征提取和分類學(xué)習(xí)、識別; 所述的步驟1:將十字形聲陣列的其中一個(gè)通道對準(zhǔn)聲源方向,作為LSMI-MVDR寬帶波 束形成的方向,采集4通道聲音信號,采樣頻率記為fs; 所述的步驟2:預(yù)處理包括數(shù)據(jù)的分幀、加窗,對聲音信號進(jìn)行分幀,聲音信號每幀選取 1024個(gè)采樣點(diǎn),幀移為512個(gè)采樣點(diǎn);然后采用漢明窗對聲音信號進(jìn)行加窗; 所述的步驟3:通過FFT來實(shí)現(xiàn)信號的離散傅里葉變換,其中,每一幀信號經(jīng)過FFT后頻 率分辨率為第p個(gè)通道的第m幀信號經(jīng)過FFT后的結(jié)果為:其中,L=1024為每一幀的長度,為第p個(gè)通道第m幀的信號,k為是各個(gè)頻帶的 編號,其對應(yīng)的中心頻率為:然后,根據(jù)聲音信號的頻率特性,洗取相應(yīng)的頗率帶,比如信號所在的頻率帶為[5, f2],則我們提取FFT后的k所在的區(qū)間^2. 根據(jù)權(quán)利要求1所述的基于十字形聲陣列寬帶波束形成的聲識別方法,其特征在于 所述的步驟4:設(shè)第k個(gè)頻帶的中心頻率為fk,則對于十字形陣列,首先將十字形陣列建立在 直角坐標(biāo)系下,則十字形陣列接收到的第m幀信號在時(shí)域內(nèi)表示為:是噪聲向量;ω為S(t)的中心角頻率,τρ(θ)(ρ = 1,2,3,4)是第p個(gè)陣元相 對于參考點(diǎn)即坐標(biāo)原點(diǎn)的延時(shí),對于十字形聲陣列,其值為:c是聲音在空氣中的傳播速度,r是十字形聲陣列的半徑; 將(1)式進(jìn)行離散傅里葉變換得到在頻域下表示方式為其中汰=〇,1,...兒-1;&(0,&)是中心頻率為&的第1^個(gè)頻帶所對應(yīng)的方向矢量,即對于MVDR波束形成原理,表述為在保證期望方向0de的信號功率不變的情況下,使得陣 列輸出的功率最小,BP其中,R=E[X(k)XH(k)]是接收信號在頻域下的自相關(guān)矩陣;在實(shí)際應(yīng)用中,用估計(jì)值遍 來替代R,估計(jì)值i的計(jì)算如下: 其中Nf表不聲音信虧的頓數(shù);因此,MVDR波束形成的最佳權(quán)矢量《_為: 為了提高M(jìn)VDR波束形成的穩(wěn)健性,我們使用基于對角加載的改進(jìn)MVDR波束形成算法, 其原理是在自相關(guān)矩陣的對角線上增加一個(gè)加載量,即從而,改進(jìn)的最佳權(quán)矢量WLSMI變?yōu)椴ㄊ纬珊蟮牡趍幀頻域信號Y(m) (k)為:3. 根據(jù)權(quán)利要求2所述的基于十字形聲陣列寬帶波束形成的聲識別方法,其特征在于 所述的步驟5:將第m幀頻域信號Yw(k)通過逆離散傅里葉變換轉(zhuǎn)換到時(shí)域,其中逆離散傅 里葉變換通過IFFT來實(shí)現(xiàn),其中第m幀時(shí)域信號y (m) (i)為:4. 根據(jù)儀利妥求3所還的基于十子形戸陣列莧帶汲來形成的戸識別萬法,具特征在于 所述的步驟6:將經(jīng)過逆離散傅里葉變換的各幀聲音信號按照分幀時(shí)的原則進(jìn)行重疊,然后 再輸出信號;其中:第一幀信號不變,后面每一幀信號去掉前面的512個(gè)點(diǎn),只保留后512點(diǎn), 然后再添加到前一幀信號后面。
【文檔編號】G01H17/00GK106023996SQ201610409905
【公開日】2016年10月12日
【申請日】2016年6月12日
【發(fā)明人】王天磊, 王建中, 曹九穩(wěn), 賴曉平
【申請人】杭州電子科技大學(xué)