一種基于i-vector說話人識(shí)別的聲源定位方法
【專利摘要】本發(fā)明公開了一種基于i?vector說話人識(shí)別的聲源定位方法,該方法通過引入鑒別互相關(guān)函數(shù)的特征,得到鑒別互相關(guān)函數(shù),將此特征分為訓(xùn)練集合測(cè)試集,對(duì)i?vector說話人識(shí)別系統(tǒng)中的模型進(jìn)行訓(xùn)練和測(cè)試,采用最大期望算法實(shí)現(xiàn)對(duì)開發(fā)集i?vector向量分布概率函數(shù)的最大似然估計(jì),建立起一個(gè)受語音時(shí)長約束的PLDA模型,能夠準(zhǔn)確地進(jìn)行語音識(shí)別以及聲源定位,這種算法的實(shí)現(xiàn),有效地解決了傳統(tǒng)聲源定位中噪聲和混響的問題。
【專利說明】
-種基于i-vector說話人識(shí)別的聲源定位方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及一種基于i-vector說話人識(shí)別的聲源定位方法,屬于互聯(lián)網(wǎng)信息技術(shù) 領(lǐng)域。
【背景技術(shù)】
[0002] 說話人識(shí)別作為生物認(rèn)證技術(shù)的一種,是根據(jù)應(yīng)用語音波形中反映說話人生理和 行為特征語音參數(shù),自動(dòng)鑒別說話人身份的一種技術(shù)。說話人識(shí)別是一種自動(dòng)識(shí)別說話人 的過程,它是人體個(gè)性特征識(shí)別中的重要分支,它是根據(jù)語音波形中反映說話人生理和行 為特征的語音參數(shù)自動(dòng)識(shí)別說話人身份的技術(shù)。隨著信息技術(shù)的不斷發(fā)展,與其他生物識(shí) 別技術(shù)相比,說話人識(shí)別有著更為簡便,經(jīng)濟(jì)及可擴(kuò)展性良好等優(yōu)勢(shì),可廣泛應(yīng)用于數(shù)據(jù)庫 訪問、安全驗(yàn)證、電話銀行、計(jì)算機(jī)遠(yuǎn)程登錄等領(lǐng)域。說話人識(shí)別技術(shù)作為一項(xiàng)重要的生物 特征身份鑒定技術(shù),有著廣泛的應(yīng)用前景,國內(nèi)外許多研究者都投身到了運(yùn)一領(lǐng)域的研究 中。近幾年來,W身份認(rèn)證矢量i-vector為基礎(chǔ)的說話人建模技術(shù)取得了非常大的成功,使 得說話人識(shí)別系統(tǒng)的性能有了很大的提升?;谏矸菡J(rèn)證矢量(identity vector,i- vector)的子空間建模被證明是目前最前沿最有效的說話人建模技術(shù)。
[0003] 隨著計(jì)算機(jī)技術(shù)與信息產(chǎn)業(yè)的迅猛發(fā)展,聲源定位已經(jīng)成為當(dāng)前研究的一個(gè)熱 點(diǎn)。確定一個(gè)聲源在空間中的位置是一項(xiàng)很有廣闊應(yīng)用前景的研究,可廣泛應(yīng)用于社會(huì)生 產(chǎn)和生活的各個(gè)方面。聲源定位是通過測(cè)量物體發(fā)出的聲音對(duì)物體定位,與使用聲納、雷 達(dá)、無線通訊的定位方法不同,前者信號(hào)是普通的聲音,是寬帶信號(hào),而后者信源是窄帶信 號(hào)。根據(jù)聲音信號(hào)的特點(diǎn),人們提出了不同的聲源定位算法,但由于噪聲和混響的存在,使 得現(xiàn)有的聲源定位算法的定位精度較低。
[0004] 當(dāng)前聲源定位算法大致可W分為3類:基于高分辨率譜估計(jì)的定位算法、基于時(shí)延 估計(jì)(TDE:Time Delay Estimation)的定位算法和基于可控波束形成的定位算法。
[0005] (1)基于高分辨率譜估計(jì)方法主要有4種:ARMA譜估計(jì)法、最小方差譜估計(jì)法、賭譜 估計(jì)法和子空間法。ARMA譜估計(jì)法通過對(duì)平穩(wěn)線性信號(hào)過程建立模型來估計(jì)功率譜密度。 賭譜估計(jì)法包含最大賭法和最小交叉賭法兩種。子空間法包括了 Pisarenko諧波分解法、 Prony法、多重信號(hào)分類(MUSIC = Multiple Signal Classification)法和基于旋轉(zhuǎn)不變技 術(shù)信號(hào)參數(shù)估計(jì)方法化SPRIT = Estimation of Signal Parameters via Rotational Invariance Techniques)?;诟叻直媛首V估計(jì)的定位算法都要利用接收信號(hào)的協(xié)方差矩 陣,而信號(hào)的協(xié)方差矩陣在實(shí)際中是未知的,必須從觀測(cè)數(shù)據(jù)中估計(jì)得到。估計(jì)信號(hào)的協(xié)方 差矩陣,需要假定聲源和噪聲是統(tǒng)計(jì)平均的,且待估計(jì)的參數(shù)(聲源位置)是固定不變的,在 一定時(shí)間間隔內(nèi)平均得到,而語音是短時(shí)平穩(wěn)信號(hào),往往不能滿足運(yùn)個(gè)條件。目前的方法 絕大多數(shù)是基于遠(yuǎn)場(chǎng)窄帶信號(hào)設(shè)計(jì)的,在室內(nèi)環(huán)境中的混響會(huì)使得運(yùn)類算法的性能嚴(yán)重惡 化。
[0006] (2)基于時(shí)延估計(jì)的定位算法
[0007] 基于時(shí)延估計(jì)的算法分為兩個(gè)步驟。第一步為時(shí)延估計(jì),即計(jì)算聲源到每兩個(gè)麥 克風(fēng)之間的時(shí)延;第二步為位置估計(jì),即根據(jù)時(shí)延和麥克風(fēng)陣列的幾何位置估計(jì)出聲源的 位置,其中時(shí)延估計(jì)(TDE)最為關(guān)鍵。廣義互相關(guān)(GCC:Generalized Cross Correlation) 時(shí)延估計(jì)法,通過計(jì)算不同麥克風(fēng)接收信號(hào)之間的互相關(guān)函數(shù),可W估計(jì)出達(dá)到時(shí)間差 (TD0A:Time Difference Arrival)。但是在實(shí)際環(huán)境中,由于噪聲和混響的影響,相關(guān)函數(shù) 的最大峰會(huì)被弱化,造成峰值檢測(cè)困難。廣義互相關(guān)法通過對(duì)兩個(gè)麥克風(fēng)信號(hào)的互功率譜 進(jìn)行加權(quán),使得相關(guān)函數(shù)在時(shí)延外的峰值更加突出。Knapp列舉了五種常用的加權(quán)函數(shù),其 中最大似然加權(quán)的廣義互相關(guān)法(GCC-ML:GCC using Maximum Likelihood)和相位變換 (PHAT:曲ase Transform)加權(quán)的廣義互相關(guān)法(GCC-PHAT:GCC using F*hase Transform) 最為典型。計(jì)算復(fù)雜度低和易于實(shí)現(xiàn)的特點(diǎn)使得GCC方法得到了比較廣泛的應(yīng)用。
[0008] (3)基于可控波束形成的定位算法
[0009] 基于可控波束形成的定位算法早期用于雷達(dá)和聲納系統(tǒng)的目標(biāo)定位,后來被引入 到麥克風(fēng)陣列信號(hào)處理。麥克風(fēng)陣波束形成技術(shù)在語音信號(hào)處理中主要有兩個(gè)方面的應(yīng) 用:1)語音增強(qiáng);2)聲源定位。當(dāng)聲源的位置已知時(shí),調(diào)整每個(gè)麥克風(fēng)的導(dǎo)引時(shí)延,可W使 得每個(gè)麥克風(fēng)的信號(hào)在時(shí)間上對(duì)齊,從而使得麥克風(fēng)陣被到引導(dǎo)聲源的位置,然后將每個(gè) 麥克風(fēng)的信號(hào)相加,達(dá)到抑制噪聲、增強(qiáng)信號(hào)的目的。上述運(yùn)種最簡單實(shí)用的波束被稱為延 時(shí)-求和(de lay-and-sum)波束形成。
[0010] 在強(qiáng)混響的環(huán)境下傳統(tǒng)的算法受到了嚴(yán)重的限制。例如,基于最大輸出功率可控 波束對(duì)外界環(huán)境W及聲源頻率反映比較敏感,會(huì)限制應(yīng)用場(chǎng)合;基于高分辨率譜估計(jì)技術(shù) 的定位方法運(yùn)算量極大且不適于近距離的定位;基于時(shí)延的定位方法的時(shí)延精度易受到混 響和噪聲干擾的影響。
【發(fā)明內(nèi)容】
[0011] 本發(fā)明目的在于解決了上述現(xiàn)有技術(shù)的不足,提出一種基于i-vector說話人識(shí)別 的聲源定位算法,該方法通過引入鑒別互相關(guān)函數(shù)的特征,得到鑒別互相關(guān)函數(shù),將此特征 分為訓(xùn)練集合測(cè)試集,對(duì)i-vector說話人識(shí)別系統(tǒng)中的模型進(jìn)行訓(xùn)練和測(cè)試,采用最大期 望(EM:expec1:ation maximization)算法實(shí)現(xiàn)對(duì)開發(fā)集i-vector向量分布概率函數(shù)的最大 似然估計(jì),建立起一個(gè)受語音時(shí)長約束的PLDA模型,能夠準(zhǔn)確地進(jìn)行語音識(shí)別W及聲源定 位,運(yùn)種算法的實(shí)現(xiàn),有效地解決了傳統(tǒng)聲源定位中噪聲和混響的問題。
[0012] 本發(fā)明解決其技術(shù)問題所采取的技術(shù)方案是:一種基于i-vector說話人識(shí)別的聲 源定位算法,該方法包括訓(xùn)練階段和定位階段。
[OOK]其中,訓(xùn)練階段的步驟如下:
[0014] 步驟1:聲源位于每個(gè)訓(xùn)練位置ri,i = l,2, . . .K,麥克風(fēng)陣記錄下聲源在該位置處 發(fā)出的信號(hào)(混響信號(hào));
[001引步驟2:利用記錄下的混響信號(hào),計(jì)算出互相關(guān)函數(shù);
[0016]步驟3:由互相關(guān)函數(shù)生成特征向量y;
[0017] 步驟4:對(duì)于每個(gè)訓(xùn)練位置ri,利用特征向量,計(jì)算出互相關(guān)函數(shù)化DA模型的均值 向量y和固定維度的說話人子空間及殘差Eij。
[0018] 定位階段的步驟如下:
[0019] 步驟1:麥克風(fēng)陣記錄下信號(hào),該信號(hào)包括聲源發(fā)出的信號(hào)(混響信號(hào))及噪聲;
[0020]步驟2:利用記錄下的信號(hào),計(jì)算出互相關(guān)函數(shù);
[0021 ]步驟3:由互相關(guān)函數(shù)生成特征向量y;如果有N帖數(shù)據(jù),則生成一個(gè)特征向量集合y = {yt,t=l,. . .N};
[0022] 步驟4:利用PLDA模型對(duì)特征進(jìn)行測(cè)試,估計(jì)聲源的位置。
[0023] 此外,在互相關(guān)函數(shù)特征的選取中,通過利用一種房間沖激響應(yīng)脈沖算法roomsim 來模擬真實(shí)的聲音環(huán)境,信號(hào)Xi化)和X2化)之間的廣義互相關(guān)函數(shù)(GCC)可W在頻域計(jì)算:
[0024]
(1.1)
[002引式中,上標(biāo)V'表示復(fù)共輛,Xi( W )是xi(t)的傅里葉變換,CO )是加權(quán)函數(shù)。
[0026] 為了增強(qiáng)互相關(guān)函數(shù)的抗混響能力,可W使用相位變化(PHAT)加權(quán)函數(shù):
[0027] (1.2)
[002引
[0029] (1.:3)
[0030] 在實(shí)際情況中,麥克風(fēng)信號(hào)xi(t)和X2(t)經(jīng)過加窗后,再由傅里葉變換求得Xl(CO) 和X2( ? )。如果房間脈沖響應(yīng)的長度化)比窗函數(shù)的長度短很多,則麥克風(fēng)信號(hào)在頻域可W 表不為:
[0031] Xn( W )=Hn(rs, w)S(co),n = l,2, (1.4)
[0032] 式中,S(CO)和Hn(。,CO)分別是S化)和hn(rs,k)的傅里葉變換。
[0033] 將式(1.4)代入式(1.3),得到:
[0034] (1. 5)
[0035] 由式(1.5)可知,麥克風(fēng)陣接收信號(hào)Xi化)和X2化)之間的GCC等于房間脈沖響應(yīng)hi (。,1〇和]12(。,1〇之間的6〔〔。
[0036] 然而,在實(shí)際情況中房間脈沖響應(yīng)的長度L比窗函數(shù)的長度大很多,則麥克風(fēng)信號(hào) 在頻域只能近似表示為:
[0037] Xn( ? )>Hn(rs, ? )*S( O ) ,n = l ,2, (1.6)
[0038] 而且,麥克風(fēng)陣接收信號(hào)Xi化)和X2(k)之間的GCC只能近似等于房間脈沖響應(yīng)hi (rs,k)和h2(rs,k)之間的GCC,即:
[0039] (1.7)
[0040] 由此可W得到互相關(guān)函數(shù)的特征。
[0041] 本發(fā)明能夠應(yīng)用于在混響和噪聲下對(duì)說話人識(shí)別W及對(duì)說話人的聲源定位。
[0042] 有益效果
[00創(chuàng) 1、本發(fā)明利用了互相關(guān)函數(shù)的特征,結(jié)合了化DA的建模方法,根據(jù)化DA模型中i- vector的概率分布函數(shù),可W提高PLDA模型的有效性。相較于傳統(tǒng)的聲源定位算法,可W降 低誤差率,提高定位的準(zhǔn)確性。運(yùn)種算法的實(shí)現(xiàn),有效地解決了傳統(tǒng)聲源定位中噪聲和混響 的問題。
[0044] 2、本發(fā)明將聲源的互相關(guān)函數(shù)的特征信息和化DA算法結(jié)合起來,適用于所有有強(qiáng) 噪聲和混響的情況。
[0045] 3、本發(fā)明通過對(duì)聲源的互相關(guān)函數(shù)特征的提取,數(shù)據(jù)采集方便簡單,定位效果也 較好。
【附圖說明】
[0046] 圖1為本發(fā)明的方法流程圖。
[0047] 圖2為本發(fā)明對(duì)不同說話人在iVector模型下的等錯(cuò)率eer的分析示意圖。
[004引圖3為本發(fā)明對(duì)不同測(cè)試數(shù)據(jù)在iVector模型W及信噪比為10地情況下的打分分 析示意圖。 圖4為本發(fā)明對(duì)不同測(cè)試數(shù)據(jù)在iVector模型W及信噪比為20地情況下的打分分析示 意圖。
【具體實(shí)施方式】
[0049] 下面結(jié)合說明書附圖對(duì)本發(fā)明創(chuàng)造作進(jìn)一步的詳細(xì)說明。
[0050] 如圖1所示,本發(fā)明是一種基于i-vector說話人識(shí)別的聲源定位算法研究。PLDA 算法是一種信道補(bǔ)償算法,它是基于i-Vector特征的,因?yàn)閕-Vector特征既包含說話人信 息又包含信道信息,而我們只關(guān)屯、說話人信息,所W需要信道補(bǔ)償。下面將具體描述聲源特 征選擇、概率線性鑒別分析、模型訓(xùn)練和打分四個(gè)方面。
[0051] 本發(fā)明具體實(shí)施步驟,包括如下:
[0052] 步驟1:利用Roomsim的仿真環(huán)境,模擬出在帶有混響和噪聲的環(huán)境,計(jì)算出聲源信 息的互相關(guān)函數(shù)的特征,對(duì)其進(jìn)行降維、語音檢測(cè)等處理,并分為訓(xùn)練集和測(cè)試集,為下一 步的模型訓(xùn)練做準(zhǔn)備。
[0化3] 步驟2:提取i-Vector,在化DA的框架下,i-Vector的產(chǎn)生過程可W用一個(gè)隱藏變 量來描述。不同的隱藏變量數(shù)目,不同的先驗(yàn)假設(shè)構(gòu)成了不同的PLDA模型。假定第i個(gè)說話 人的第j個(gè)i-vector表示為Wij,常用的PLDA模型假設(shè)如下:
[0054] Wij = ]i+Vyi+Zij
[0055] 其中,y為所有訓(xùn)練數(shù)據(jù)的均值,V矩陣表示說話人空間(本征音矩陣),矢量yi為對(duì) 應(yīng)的說話人因子,服從標(biāo)準(zhǔn)高斯分布,ZU表示殘差,由一個(gè)全角矩陣D表示。
[0056] 步驟3:應(yīng)用化DA,在已標(biāo)注數(shù)據(jù)集上通過期望最大化法化M)估計(jì)模型參數(shù)A=(y, V,D),初始模型采用隨機(jī)值。
[0057] 步驟4:估計(jì)好模型參數(shù)后,給定兩個(gè)i-Vector Wi和W2,其對(duì)數(shù)似然比由公式計(jì)算, 其中假設(shè)9tar表示他們來自同一個(gè)說話人,0。。。表示他們來自不同的說話人,用對(duì)數(shù)似然比 計(jì)算得分為:
[0化引
[0059] 分別在無噪聲情況下,有噪聲情況下進(jìn)行測(cè)試,其中有噪聲情況下信噪比逐漸降 低,經(jīng)過實(shí)驗(yàn)可W得到即使在有噪聲和混響的情況下,該方法也有很好的定位效果。
[0060] 下面對(duì)本發(fā)明的基于iVector的聲源定位算法在不同情況下分別進(jìn)行比較驗(yàn)證, 實(shí)驗(yàn)參數(shù)選取包括如下:
[0061] (1)仿真數(shù)據(jù)集選取于Roomsim,它是一段長方形房間混響仿真代碼,可設(shè)置聲源 和接聽者的位置。它的尺寸為7mX6mX3m,混響時(shí)間(Tso)與反射系數(shù)(0)的關(guān)系由艾潤公式 確定:
[0062] _ ' . _
[0063] 整個(gè)數(shù)據(jù)集按8:2的比例分成訓(xùn)練集和測(cè)試集,訓(xùn)練集數(shù)據(jù)作為算法輸入,而測(cè)試 集用于測(cè)試改進(jìn)后的算法性能。
[0064] (2)聲源定位系統(tǒng)采用PLDA算法,參數(shù)為ii,V,yl,zリ。ii為所有訓(xùn)練數(shù)據(jù)的均值,V矩 陣表示說話人空間(本征音矩陣),矢量yi為對(duì)應(yīng)的說話人因子,服從標(biāo)準(zhǔn)高斯分布,ZU表示 殘差,由一個(gè)全角矩陣D表示。
[0065] (3)i-Vector的參數(shù)矩陣T采用一個(gè)空間代替兩個(gè)空間,在傳統(tǒng)的語音識(shí)別方法 中,兩個(gè)空間是由本征音空間矩陣定義的說話人空間,和由本征音信道空間矩陣定義的信 道空間。運(yùn)個(gè)新的空間既包含了說話人之間的差異又包含了信道的差異。
[0066] 實(shí)驗(yàn)1:驗(yàn)證在無噪環(huán)境下用iVector模型進(jìn)行聲源定位的等錯(cuò)率的結(jié)果圖
[0067] 圖2為本發(fā)明在無噪聲環(huán)境下,對(duì)五個(gè)人進(jìn)行聲源定位。其中,Model代表訓(xùn)練的模 型,Test代表測(cè)試的模型。將每一行與每一列進(jìn)行匹配,顏色越深代表得分越高。等錯(cuò)率eer 越低代表性能越好。通過圖2可W看出,在無噪環(huán)境下,該算法的eer為0,所W該模型的定位 效果非常好。
[0068] 實(shí)驗(yàn)2:驗(yàn)證在信噪比為15地環(huán)境下用iVector模型進(jìn)行聲源定位的等錯(cuò)率的結(jié)果 圖
[0069] 圖3是在信噪比為10地下的等錯(cuò)率的結(jié)果圖。與實(shí)驗(yàn)1類似,可看到在15地下,eer 仍然為0,定位效果很好。
[0070] 實(shí)驗(yàn)3:驗(yàn)證在信噪比為20地環(huán)境下用iVector模型進(jìn)行聲源定位的等錯(cuò)率的結(jié)果 圖
[0071] 圖4是在信噪比為20地下的等錯(cuò)率的結(jié)果圖。與實(shí)驗(yàn)1類似,可看到在15地下,eer 仍然為0,因此可W得出結(jié)論,基于i-vector說話人識(shí)別的聲源定位算法定位有著很好的定 位效果。
[0072] 對(duì)本領(lǐng)域技術(shù)人員而言,根據(jù)上述實(shí)施類型可W很容易聯(lián)想其他的優(yōu)點(diǎn)和變形。 因此,本發(fā)明不局限于W上實(shí)例,其僅僅作為例子對(duì)本發(fā)明的一種形態(tài)進(jìn)行詳細(xì)、示范性的 說明。在不背離本發(fā)明宗旨的范圍內(nèi),本領(lǐng)域技術(shù)人員根據(jù)上述具體實(shí)例,通過各種等同替 換所得到的技術(shù)方案,均應(yīng)包含在本發(fā)明的權(quán)利要求范圍及其等同范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于i-vector說話人識(shí)別的聲源定位方法,其特征在于,所述方法包括如下步 驟: 步驟1:聲源位于每個(gè)訓(xùn)練位置ri,i = 1,2,... K,麥克風(fēng)陣記錄下聲源在該位置處發(fā)出 的信號(hào); 步驟2:利用記錄下的混響信號(hào),計(jì)算出互相關(guān)函數(shù); 步驟3:由互相關(guān)函數(shù)生成特征向量y; 步驟4:對(duì)于每個(gè)訓(xùn)練位置Γι,利用特征向量,計(jì)算出互相關(guān)函數(shù)PLDA模型的均值向量μ 和固定維度的說話人子空間貧以及殘差e1J; 步驟5:麥克風(fēng)陣記錄下信號(hào),該信號(hào)包括聲源發(fā)出的信號(hào)及噪聲; 步驟6:利用記錄下的信號(hào),計(jì)算出互相關(guān)函數(shù); 步驟7:由互相關(guān)函數(shù)生成特征向量y;如果有N幀數(shù)據(jù),則生成一個(gè)特征向量集合y。 步驟8:利用PLDA模型對(duì)特征進(jìn)行測(cè)試,估計(jì)聲源的位置。2. 根據(jù)權(quán)利要求1所述的一種基于i-vector說話人識(shí)別的聲源定位算法,其特征在于, 步驟2中,所述的特征屬性需要分配不同的權(quán)值。3. 根據(jù)權(quán)利要求1所述的一種基于i-vector說話人識(shí)別的聲源定位算法,其特征在于, 步驟3中,聲源位置特征值由項(xiàng)目特征屬性計(jì)算而來,所述計(jì)算過程包括: 步驟3-1,互相關(guān)函數(shù)特征的選取中,通過利用一種房間沖激響應(yīng)脈沖算法roomsim來 模擬真實(shí)的聲音環(huán)境,信號(hào)之間的廣義互相關(guān)函數(shù)可以在頻域計(jì)算; 步驟3-2,為了增強(qiáng)互相關(guān)函數(shù)的抗混響能力,可以使用相位變化加權(quán)函數(shù); 步驟3-3,實(shí)際情況中,麥克風(fēng)信號(hào)時(shí)域函數(shù)經(jīng)過加窗后,再由傅里葉變換求得頻域函 數(shù);如果房間脈沖響應(yīng)的長度比窗函數(shù)的長度短很多,則麥克風(fēng)陣接收信號(hào)之間的GCC等于 房間脈沖響應(yīng)的GCC。4. 根據(jù)權(quán)利要求1所述的一種基于i-vector說話人識(shí)別的聲源定位算法,其特征在于: 所述方法應(yīng)用于所有項(xiàng)目帶有特征屬性的聲源定位系統(tǒng)。
【文檔編號(hào)】G01S5/18GK106019230SQ201610365659
【公開日】2016年10月12日
【申請(qǐng)日】2016年5月27日
【發(fā)明人】萬新旺, 顧曉瑜, 楊悅, 廖鵬程
【申請(qǐng)人】南京郵電大學(xué)