專利名稱:說話人識(shí)別方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及生物特征識(shí)別領(lǐng)域。特別地,涉及一種說話人識(shí)別方法和系統(tǒng)。
背景技術(shù):
說話人識(shí)別是一種根據(jù)語(yǔ)音信號(hào)自動(dòng)識(shí)別說話人身份的技術(shù)。說話人識(shí)別屬于生物特征識(shí)別技術(shù)。生物特征識(shí)別技術(shù)是利用生物特征自動(dòng)識(shí)別個(gè)體身份的技術(shù),包括指紋識(shí)別、虹膜識(shí)別、基因識(shí)別、人臉識(shí)別等等。說話人識(shí)別利用語(yǔ)音信號(hào)進(jìn)行身份識(shí)別,具有人機(jī)交互自然、語(yǔ)音信號(hào)易于提取、可實(shí)現(xiàn)遠(yuǎn)程識(shí)別等優(yōu)勢(shì)。說話人識(shí)別是一種語(yǔ)音信號(hào)處理技術(shù)。語(yǔ)音信號(hào)處理技術(shù)是從語(yǔ)音信號(hào)中提取目標(biāo)信息的技術(shù),包括語(yǔ)音識(shí)別、說話人識(shí)別、語(yǔ)音語(yǔ)言識(shí)別、語(yǔ)音合成等。語(yǔ)音識(shí)別是將語(yǔ)音 信號(hào)輸入轉(zhuǎn)換為文本輸出的技術(shù)。語(yǔ)音語(yǔ)言識(shí)別是利用語(yǔ)音信號(hào)識(shí)別說話人語(yǔ)言的技術(shù)。語(yǔ)音合成是將文本輸入轉(zhuǎn)換為語(yǔ)音信號(hào)輸出的技術(shù)。圖I顯示了說話人識(shí)別系統(tǒng)的現(xiàn)有技術(shù)的結(jié)構(gòu)框圖。系統(tǒng)包括兩個(gè)階段訓(xùn)練階段和識(shí)別階段。在訓(xùn)練階段,系統(tǒng)使用收集的說話人語(yǔ)音為說話人建立模型。在識(shí)別階段,系統(tǒng)將輸入語(yǔ)音與說話人模型進(jìn)行模式匹配,根據(jù)匹配得分作出判決。說話人識(shí)別按識(shí)別結(jié)果輸出方式分為說話人辨識(shí)和說話人確認(rèn)。說話人辨識(shí)假設(shè)輸入語(yǔ)音屬于系統(tǒng)中的已訓(xùn)練說話人之一,將輸入語(yǔ)音與系統(tǒng)中所有說話人的模型進(jìn)行模式匹配,輸出結(jié)果為匹配得分最高的說話人。說話人確認(rèn)則用于確認(rèn)輸入語(yǔ)音是否屬于某一特定說話人。系統(tǒng)將輸入語(yǔ)音與目標(biāo)說話人的模型進(jìn)行模式匹配,如果匹配得分高于預(yù)設(shè)閾值,則判定輸入語(yǔ)音屬于該說話人;反之則不屬于該說話人。由于說話人確認(rèn)未假設(shè)輸入語(yǔ)音屬于已訓(xùn)練說話人,其識(shí)別難度一般高于說話人辨識(shí)。說話人識(shí)別按輸入語(yǔ)音類型分為與文本有關(guān)說話人識(shí)別和與文本無(wú)關(guān)說話人識(shí)另IJ。與文本有關(guān)說話人識(shí)別是指使用已知文本內(nèi)容的輸入語(yǔ)音進(jìn)行識(shí)別,即說話人按規(guī)定的文本發(fā)音。與文本無(wú)關(guān)說話人識(shí)別則使用隨機(jī)文本內(nèi)容的輸入語(yǔ)音進(jìn)行識(shí)別,即說話人按自己的表達(dá)意愿發(fā)音。由于與文本無(wú)關(guān)說話人識(shí)別未限制語(yǔ)音的文本內(nèi)容,識(shí)別過程須消除語(yǔ)音與模型之間文本內(nèi)容不一致帶來的干擾,所以識(shí)別難度高于與文本有關(guān)說話人識(shí)另IJ。與文本有關(guān)說話人識(shí)別可應(yīng)用于語(yǔ)音銀行服務(wù)、語(yǔ)音門禁系統(tǒng)、語(yǔ)音密碼系統(tǒng)等;與文本無(wú)關(guān)說話人識(shí)別可應(yīng)用于電話反恐監(jiān)控等文本內(nèi)容未知的場(chǎng)合。說話人識(shí)別系統(tǒng)需要從語(yǔ)音信號(hào)提取能反映說話人個(gè)性的特征,并建立準(zhǔn)確的模型區(qū)分該說話人與其他說話人之間的差異。在現(xiàn)實(shí)應(yīng)用中語(yǔ)音信號(hào)極易受到各種干擾,包括信道干擾、噪聲干擾、說話人生理心理變化干擾等。這些干擾因素導(dǎo)致語(yǔ)音波形產(chǎn)生隨機(jī)變化,影響語(yǔ)音特征的提取和模型參數(shù)的訓(xùn)練,進(jìn)而導(dǎo)致識(shí)別的準(zhǔn)確度下降?,F(xiàn)有系統(tǒng)多對(duì)語(yǔ)音信號(hào)提取倒譜特征,也有提取基音等特征。倒譜特征平滑了基音諧振,而基音特征提取相對(duì)不穩(wěn)定,因而現(xiàn)有特征尚未充分表達(dá)說話人個(gè)人特性?,F(xiàn)有系統(tǒng)說話人模型有高斯混合模型和支持向量機(jī)等,尚未能準(zhǔn)確對(duì)輸入特征進(jìn)行識(shí)別?,F(xiàn)有特征和模型尚未能有效應(yīng)對(duì)各種信號(hào)干擾。因此需要找到一種能夠準(zhǔn)確和有效地識(shí)別說話人的方法和系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種說話人識(shí)別方法和系統(tǒng),能夠準(zhǔn)確和快速地識(shí)別說話人。要解決現(xiàn)有技術(shù)中特征提取和模型訓(xùn)練不夠準(zhǔn)確,識(shí)別性能易受干擾信號(hào)影響等問題。本發(fā)明公開了一種說話人識(shí)別方法,所述方法包括如下步驟(I)、建立通用背景模型。通用背景模型從包含多個(gè)說話人的語(yǔ)音數(shù)據(jù)庫(kù)訓(xùn)練得至IJ,代表了所有說話人特征的概率分布,用于準(zhǔn)確可靠地估計(jì)特定說話人模型;(2)、建立待識(shí)別說話人模型。使用說話人的訓(xùn)練語(yǔ)音信號(hào),基于通用背景模型進(jìn)行自適應(yīng)運(yùn)算,得到特定說話人模型;(3)、識(shí)別說話人。將輸入語(yǔ)音與說話人模型進(jìn)行匹配運(yùn)算,如果得分高于預(yù)設(shè)閾 值,則確認(rèn)語(yǔ)音屬于該說話人;反之則不屬于該說話人。進(jìn)一步,所述建立通用背景模型的步驟,具體包括步驟201、收集包含多個(gè)說話人的語(yǔ)音數(shù)據(jù)庫(kù),用于訓(xùn)練通用背景模型;步驟202、將語(yǔ)音數(shù)據(jù)庫(kù)中的語(yǔ)音信號(hào)轉(zhuǎn)換為倒譜特征;步驟203、使用數(shù)據(jù)庫(kù)中所有說話人的倒譜特征計(jì)算高斯混合模型和特征變換先驗(yàn)矩陣。高斯混合模型代表了說話人模型空間的先驗(yàn)分布;特征變換先驗(yàn)矩陣代表了特征空間變換矩陣的先驗(yàn)分布;步驟204、使用數(shù)據(jù)庫(kù)中每個(gè)說話人的倒譜特征,對(duì)各說話人計(jì)算特定人高斯混合模型的均值矢量和特征變換矩陣,矢量化矩陣并串聯(lián)為超級(jí)矢量。得到的超級(jí)矢量集合用于訓(xùn)練支持向量機(jī);步驟205、使用數(shù)據(jù)庫(kù)中所有說話人的超級(jí)矢量計(jì)算干擾因子消除映射的映射矩陣;該映射矩陣用于消除超級(jí)矢量中的干擾因子的影響。進(jìn)一步,所述建立待識(shí)別說話人模型的步驟,具體包括步驟301、獲取待識(shí)別說話人的訓(xùn)練語(yǔ)音信號(hào),用于訓(xùn)練說話人模型;步驟302、將訓(xùn)練語(yǔ)音信號(hào)轉(zhuǎn)換為倒譜特征;步驟303、基于通用背景模型中的高斯混合模型和特征變換先驗(yàn)矩陣,使用倒譜特征計(jì)算說話人的高斯混合模型的均值矢量和特征變換矩陣,矢量化矩陣并串聯(lián)為超級(jí)矢量;步驟304、基于通用背景模型中的干擾因子消除映射矩陣,對(duì)超級(jí)矢量進(jìn)行干擾因子消除映射;步驟305、基于通用背景模型中的超級(jí)矢量集合和說話人的超級(jí)矢量,計(jì)算該說話人的支持向量機(jī)模型;進(jìn)一步,所述識(shí)別說話人的步驟,具體包括步驟401、獲取輸入語(yǔ)音信號(hào),用于判決是否為說話人;步驟402、將輸入語(yǔ)音信號(hào)轉(zhuǎn)換為倒譜特征;步驟403、基于通用背景模型中的高斯混合模型和特征變換先驗(yàn)矩陣,使用倒譜特征計(jì)算該輸入語(yǔ)音的高斯混合模型的均值矢量和特征變換矩陣,矢量化矩陣并串聯(lián)為超級(jí)
矢量;
步驟404、基于通用背景模型中的干擾因子消除映射矩陣,對(duì)超級(jí)矢量進(jìn)行干擾因子消除映射;步驟405、基于待識(shí)別說話人的支持向量機(jī)模型,對(duì)輸入的超級(jí)矢量計(jì)算支持向量機(jī)得分,即計(jì)算該超級(jí)矢量對(duì)該說話人模型的得分;步驟406、對(duì)得分進(jìn)行測(cè)試歸一化處理,用于進(jìn)一步消除干擾因子造成的得分偏移;步驟407、如果歸一化得分高于預(yù)設(shè)閾值,則確認(rèn)為該說話人;反之則否。本發(fā)明還提供了一種實(shí)施上述方法的說話人識(shí)別的系統(tǒng),其包括取樣模塊,用于獲取訓(xùn)練語(yǔ)音信號(hào)和待識(shí)別語(yǔ)音信號(hào); 特征提取模塊,用于將語(yǔ)音信號(hào)轉(zhuǎn)換為倒譜特征;通用背景模型計(jì)算模塊,用于對(duì)訓(xùn)練語(yǔ)音數(shù)據(jù)庫(kù)計(jì)算通用背景模型,包括高斯混合模型、特征變換先驗(yàn)矩陣、超級(jí)矢量集合、干擾因子消除映射矩陣;說話人模型計(jì)算模塊,用于對(duì)說話人的訓(xùn)練語(yǔ)音信號(hào)計(jì)算該說話人的支持向量機(jī)模型;說話人識(shí)別模塊,用于將輸入語(yǔ)音與說話人模型進(jìn)行對(duì)比,輸出得分若高于預(yù)設(shè)閾值,則確認(rèn)為該說話人。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)本發(fā)明提出一種結(jié)合模型空間變換和特征空間變換的高性能說話人識(shí)別系統(tǒng),這兩個(gè)空間的變換綜合反映了說話人發(fā)音的個(gè)體特征。兩個(gè)空間的變換均基于通用背景模型使用自適應(yīng)算法計(jì)算得到,具有很好的穩(wěn)定性。相比于現(xiàn)有技術(shù)中往往單獨(dú)采用模型空間變換進(jìn)行說話人識(shí)別,大大提高系統(tǒng)的識(shí)別率,同時(shí)系統(tǒng)更加穩(wěn)定,不易模仿。
圖I是說話人識(shí)別系統(tǒng)的現(xiàn)有技術(shù)的結(jié)構(gòu)框圖;圖2是本發(fā)明中建立通用背景模型實(shí)施例的步驟流程圖;圖3是建立待識(shí)別說話人模型實(shí)施例的步驟流程圖;圖4是識(shí)別說話人實(shí)施例的步驟流程圖;圖5是本發(fā)明一種說話人識(shí)別系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖。
具體實(shí)施例方式為使本發(fā)明的上述功能、流程和優(yōu)點(diǎn)更加明顯易懂,下面對(duì)本發(fā)明涉及到的相關(guān)技術(shù)逐一詳細(xì)介紹。參照?qǐng)D2,顯示了本發(fā)明建立通用背景模型實(shí)施例,該實(shí)施例具體包括以下步驟步驟201、收集包含大量(例如1000人或10000人)說話人的語(yǔ)音數(shù)據(jù)庫(kù);步驟202、將語(yǔ)音數(shù)據(jù)庫(kù)中的語(yǔ)音信號(hào)轉(zhuǎn)換為倒譜特征;步驟203、使用數(shù)據(jù)庫(kù)中所有說話人的倒譜特征計(jì)算高斯混合模型和特征變換先驗(yàn)矩陣;步驟204、對(duì)數(shù)據(jù)庫(kù)中各說話人計(jì)算特定人高斯混合模型的均值矢量和特征變換矩陣,矢量化矩陣并串聯(lián)為超級(jí)矢量;綜合所有說話人的超級(jí)矢量得到超級(jí)矢量集合;
步驟205、使用數(shù)據(jù)庫(kù)中所有說話人的超級(jí)矢量計(jì)算干擾因子消除映射的映射矩陣。對(duì)輸入語(yǔ)音信號(hào)首先要進(jìn)行特征提取。特征提取是模式識(shí)別中的一個(gè)重要步驟,其目的是將輸入信號(hào)轉(zhuǎn)化為特征參數(shù),然后識(shí)別器對(duì)特征參數(shù)進(jìn)行識(shí)別。特征參數(shù)的優(yōu)劣對(duì)識(shí)別性能有很大的影響。特征提取有兩個(gè)原則對(duì)同類信號(hào),特征參數(shù)之間的距離盡量小;對(duì)異類參數(shù),特征參數(shù)之間的距離盡量大。對(duì)語(yǔ)音信號(hào),將人的聽覺系統(tǒng)中信號(hào)處理的實(shí)驗(yàn)結(jié)果用于特征提取會(huì)有效的提高識(shí)別性能,比如MFCC (Mel Frequency CepstrumCoefficient, Mel譜倒譜系數(shù))。在識(shí)別系統(tǒng)中,增加一些輔助的特征參數(shù)能有效地提高識(shí)別性能。在說話人識(shí)別中,輔助參數(shù)有對(duì)數(shù)能量,動(dòng)態(tài)特征等。在MFCC提取中,首先語(yǔ)音信號(hào)采樣點(diǎn)序列被分幀處理,每幀信號(hào)作為該時(shí)刻的短時(shí)穩(wěn)定信號(hào)。幀長(zhǎng)為足夠長(zhǎng)保證頻譜精細(xì)度與足夠短保證短時(shí)平穩(wěn)性之間的折衷;為增加幀之間的連續(xù)性,幀與幀一般部分重疊,即幀移小于幀長(zhǎng)。比如對(duì)采樣率為16kHz的語(yǔ)音信號(hào),幀長(zhǎng)可取25毫秒,幀移可取10毫秒。人的外耳和中耳道的傳輸函數(shù)在高頻帶幅值比低 頻帶高。為了模擬該特征,一般將語(yǔ)音信號(hào)通過一個(gè)高通濾波器,對(duì)語(yǔ)音信號(hào)的高頻帶頻譜進(jìn)行預(yù)加重。高通濾波器的沖激響應(yīng)為H(z)=l-Kz'其中,0 彡 K 彡 I。為了減少幀信號(hào)頻譜泄漏的影響,每幀信號(hào)被乘以漢明窗ff(n) =0. 54+0. 46cos [2 Ji n/ (N-I)],其中 N 為窗長(zhǎng)。語(yǔ)音信號(hào)的頻譜可以通過FFT (Fast Fourier Transform,快速傅立葉變換)計(jì)算得到。Mel頻率用以模擬耳蝸的頻率響應(yīng)。語(yǔ)音頻譜的幅度或能量通過Mel域?yàn)V波器組得到Mel域?yàn)V波器組幅度或能量。Mel頻率與線性頻率的對(duì)應(yīng)關(guān)系為Mel (f) =25951og10(lf/700)濾波器組為在Mel域上均勻分布的一組三角形濾波器。人耳聽覺神經(jīng)的傳輸函數(shù)為類似對(duì)數(shù)函數(shù)的曲線。對(duì)應(yīng)該特征,對(duì)Mel域?yàn)V波器組幅度或能量取對(duì)數(shù)得到對(duì)數(shù)Mel域?yàn)V波器組幅度或能量。在信號(hào)上對(duì)數(shù)Mel域?yàn)V波器組幅度或能量也是對(duì)Mel域?yàn)V波器組幅度或能量的平滑,后者具有相當(dāng)大的動(dòng)態(tài)范圍。最后對(duì)數(shù)濾波器組幅度或能量通過DCT (Discrete Cosine Transform,離散余弦變換)得到倒譜系數(shù),即MFCC。DCT變換也使得MFCC各分量之間的獨(dú)立性更強(qiáng),更適合于高斯混合模型的對(duì)角陣協(xié)方差矩陣。為了增強(qiáng)特征參數(shù)的表達(dá)能力,識(shí)別系統(tǒng)還加入對(duì)數(shù)能量和動(dòng)態(tài)特征。對(duì)數(shù)能量為一幀語(yǔ)音信號(hào)的能量的對(duì)數(shù)值E = logX-v;,其中,Sn為信號(hào)采樣點(diǎn),N為幀長(zhǎng)。
n-\取對(duì)數(shù)是為了減少參數(shù)的動(dòng)態(tài)范圍。使用動(dòng)態(tài)特征能較大地提高識(shí)別系統(tǒng)的性能。動(dòng)態(tài)特征反映了連續(xù)幀之間的相關(guān)性,取巾貞間倒譜參數(shù)的一階差分和二階差分。根據(jù)MMSE(Minimum Mean Square Error,最小均方差準(zhǔn)則),t幀差分的計(jì)算公式為
權(quán)利要求
1.一種說話人識(shí)別方法,其特征在于包括如下步驟 (1)、建立通用背景模型; (2)建立待識(shí)別說話人模型; (3)識(shí)別說話人將輸入語(yǔ)音與待識(shí)別說話人模型進(jìn)行匹配運(yùn)算,如果得分高于預(yù)設(shè)閾值,則確認(rèn)語(yǔ)音屬于該說話人;反之則不屬于該說話人。
2.根據(jù)權(quán)利要求I所述的說話人識(shí)別方法,其特征在于所述的建立通用背景模型的步驟,具體包括 步驟201、收集包含多個(gè)說話人的語(yǔ)音數(shù)據(jù)庫(kù); 步驟202、將語(yǔ)音數(shù)據(jù)庫(kù)中的語(yǔ)音信號(hào)轉(zhuǎn)換為倒譜特征; 步驟203、使用數(shù)據(jù)庫(kù)中所有說話人的倒譜特征計(jì)算高斯混合模型和特征變換先驗(yàn)矩陣; 步驟204、使用數(shù)據(jù)庫(kù)中每個(gè)說話人的倒譜特征,對(duì)數(shù)據(jù)庫(kù)中各說話人計(jì)算特定人高斯混合模型的均值矢量和特征變換矩陣,矢量化矩陣并串聯(lián)為超級(jí)矢量;綜合所有說話人的超級(jí)矢量得到超級(jí)矢量集合; 步驟205、使用數(shù)據(jù)庫(kù)中所有說話人的超級(jí)矢量計(jì)算干擾因子消除映射的映射矩陣。
3.根據(jù)權(quán)利要求2所述的說話人識(shí)別方法,其特征在于所述建立待識(shí)別說話人模型的步驟,具體包括 步驟301、獲取待識(shí)別說話人的訓(xùn)練語(yǔ)音信號(hào); 步驟302、將訓(xùn)練語(yǔ)音信號(hào)轉(zhuǎn)換為倒譜特征; 步驟303、基于通用背景模型中的高斯混合模型和特征變換先驗(yàn)矩陣,使用倒譜特征計(jì)算說話人的高斯混合模型的均值矢量和特征變換矩陣,矢量化矩陣并串聯(lián)為超級(jí)矢量;步驟304、基于通用背景模型中的干擾因子消除映射矩陣,對(duì)超級(jí)矢量進(jìn)行干擾因子消除映射; 步驟305、基于通用背景模型中的超級(jí)矢量集合和說話人的超級(jí)矢量,計(jì)算該說話人的支持向量機(jī)模型。
4.根據(jù)權(quán)利要求3所述的說話人識(shí)別方法,其特征在于所述識(shí)別說話人的步驟,具體包括 步驟401、獲取輸入語(yǔ)音信號(hào),用于判決是否為說話人; 步驟402、將輸入語(yǔ)音信號(hào)轉(zhuǎn)換為倒譜特征; 步驟403、基于通用背景模型中的高斯混合模型和特征變換先驗(yàn)矩陣,使用倒譜特征計(jì)算該輸入語(yǔ)音的高斯混合模型的均值矢量和特征變換矩陣,矢量化矩陣并串聯(lián)為超級(jí)矢量; 步驟404、基于通用背景模型中的干擾因子消除映射矩陣,對(duì)超級(jí)矢量進(jìn)行干擾因子消除映射; 步驟405、基于待識(shí)別說話人的支持向量機(jī)模型,對(duì)輸入的超級(jí)矢量計(jì)算支持向量機(jī)得分,即計(jì)算該超級(jí)矢量對(duì)該說話人模型的得分; 步驟406、使用一組參考說話人模型,對(duì)得分進(jìn)行測(cè)試歸一化處理,以進(jìn)一步消除干擾因子造成的得分偏移; 步驟407、如果歸一化得分高于預(yù)設(shè)閾值,則確認(rèn)為該說話人;反之,則否。
5.一種應(yīng)用權(quán)利要求I所述方法的說話人識(shí)別的系統(tǒng),其特征在于包括 取樣模塊,用于獲取訓(xùn)練語(yǔ)音信號(hào)和待識(shí)別語(yǔ)音信號(hào); 特征提取模塊,用于將語(yǔ)音信號(hào)轉(zhuǎn)換為倒譜特征; 通用背景模型計(jì)算模塊,用于對(duì)訓(xùn)練語(yǔ)音數(shù)據(jù)庫(kù)計(jì)算通用背景模型; 說話人模型計(jì)算模塊,用于對(duì)說話人的訓(xùn)練語(yǔ)音信號(hào)計(jì)算該說話人的支持向量機(jī)模型; 說話人識(shí)別模塊,用于將輸入語(yǔ)音與說話人模型進(jìn)行對(duì)比,輸出得分若高于預(yù)設(shè)閾值,則確認(rèn)為該說話人。
全文摘要
本發(fā)明公開了一種說話人識(shí)別方法,所述方法通過建立通用背景模型、建立待識(shí)別說話人模型、使用說話人的訓(xùn)練語(yǔ)音信號(hào)、識(shí)別說話人,與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)本發(fā)明提出一種結(jié)合模型空間變換和特征空間變換的高性能說話人識(shí)別系統(tǒng),這兩個(gè)空間的變換綜合反映了說話人發(fā)音的個(gè)體特征。兩個(gè)空間的變換均基于通用背景模型使用自適應(yīng)算法計(jì)算得到,具有很好的穩(wěn)定性。相比于現(xiàn)有技術(shù)中往往單獨(dú)采用模型空間變換進(jìn)行說話人識(shí)別,大大提高系統(tǒng)的識(shí)別率,同時(shí)系統(tǒng)更加穩(wěn)定,不易模仿。
文檔編號(hào)G10L17/04GK102968990SQ20121045864
公開日2013年3月13日 申請(qǐng)日期2012年11月15日 優(yōu)先權(quán)日2012年11月15日
發(fā)明者朱東來, 鄂小松 申請(qǐng)人:江蘇嘉利德電子科技有限公司