一種基于壓縮感知的說(shuō)話人自適應(yīng)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于壓縮感知的說(shuō)話人自適應(yīng)方法,屬于連續(xù)語(yǔ)音識(shí)別的聲學(xué)模 型自適應(yīng)技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)、云計(jì)算等技術(shù)的迅速發(fā)展,計(jì)算機(jī)的運(yùn)算能力不斷提高,存儲(chǔ)容量達(dá) 到海量級(jí),語(yǔ)音識(shí)別技術(shù)取得了長(zhǎng)足的進(jìn)步,出現(xiàn)了一些實(shí)用化的系統(tǒng),但人類離其最終的 夢(mèng)想一一讓計(jì)算機(jī)像人一樣在各種復(fù)雜環(huán)境下聽(tīng)懂人類語(yǔ)言一一還有很長(zhǎng)的路要走。語(yǔ)音 識(shí)別問(wèn)題之所以如此困難,其中一個(gè)重要原因是由于在自然界中語(yǔ)音信號(hào)的不確定性非常 大,難以得到一個(gè)精確的聲學(xué)模型對(duì)其進(jìn)行描述。歸納起來(lái),語(yǔ)音信號(hào)的不確定性主要來(lái)源 于以下幾個(gè)方面因素的影響:協(xié)同發(fā)音的影響、說(shuō)話人的影響、說(shuō)話環(huán)境的影響、傳輸信道 的影響。
[0003] 在連續(xù)語(yǔ)音識(shí)別系統(tǒng)中,針對(duì)說(shuō)話人、環(huán)境和信道的影響,可以從特征層和模型層 兩個(gè)方面入手提高系統(tǒng)的穩(wěn)健性:在特征層次,提取穩(wěn)健性的特征參數(shù),使之受說(shuō)話人、環(huán) 境噪聲等的影響盡量?。辉诼晫W(xué)模型層次,由于訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)不匹配,造成實(shí)際應(yīng)用 中系統(tǒng)性能的急劇下降,可通過(guò)聲學(xué)模型自適應(yīng)技術(shù),根據(jù)少量的測(cè)試數(shù)據(jù)對(duì)聲學(xué)模型進(jìn) 行調(diào)整,增加其與測(cè)試數(shù)據(jù)的匹配程度,使之與當(dāng)前的說(shuō)話人、說(shuō)話環(huán)境和信道相匹配,從 而提尚系統(tǒng)的識(shí)別性能。
[0004] 聲學(xué)模型的訓(xùn)練語(yǔ)料通常包含多個(gè)說(shuō)話人的語(yǔ)音,由此得到的聲學(xué)模型稱為說(shuō) 話人無(wú)關(guān)(SpeakerIndependent,SI)聲學(xué)模型。然而當(dāng)訓(xùn)練語(yǔ)料充分時(shí),使用特定人語(yǔ)料 訓(xùn)練得到的說(shuō)話人相關(guān)(SpeakerDependent,SD)聲學(xué)模型比SI模型具有更高的識(shí)別率。 因此,在給定少量自適應(yīng)語(yǔ)料的條件下將SI模型進(jìn)行某種調(diào)整得到SD模型,這種模型參數(shù) 的調(diào)整過(guò)程稱為說(shuō)話人自適應(yīng)。
[0005] 在當(dāng)前主流的說(shuō)話人自適應(yīng)技術(shù)中,基于說(shuō)話人子空間的自適應(yīng)是其中一種重要 的方法,它特別適用于少量數(shù)據(jù)條件下的快速說(shuō)話人自適應(yīng)?;谡f(shuō)話人子空間的自適應(yīng), 由于有效利用了說(shuō)話人之間的相關(guān)性信息,自適應(yīng)過(guò)程中僅需要估計(jì)一個(gè)低維矢量,特別 適合于少量數(shù)據(jù)條件下的快速自適應(yīng)。目前,已有多種基于說(shuō)話人子空間的自適應(yīng)方法,其 各自的基矢量構(gòu)造及說(shuō)話人坐標(biāo)的估計(jì)方法不同。其中,兩個(gè)具有代表性的方法是本征音 (Eigenvoice,EV)自適應(yīng)及參考說(shuō)話人加權(quán)(ReferenceSpeakerWeighting,RSW)自適應(yīng)。 兩種方法的子空間基矢量及說(shuō)話人坐標(biāo)的估計(jì)方法各不相同,其共同的缺點(diǎn)是:均無(wú)法確 定與新說(shuō)話人及自適應(yīng)數(shù)據(jù)完全匹配的最佳說(shuō)話人子空間維數(shù)及基矢量,所得到的都是近 似最優(yōu)解,自適應(yīng)效果不好。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是提供一種基于壓縮感知的說(shuō)話人自適應(yīng)方法,以解決基于說(shuō)話人 子空間的自適應(yīng)方法無(wú)法確定與新說(shuō)話人及自適應(yīng)數(shù)據(jù)完全匹配的最佳說(shuō)話人子空間維 數(shù)及基矢量所導(dǎo)致自適應(yīng)效果不好的問(wèn)題。
[0007] 本發(fā)明為解決上述技術(shù)問(wèn)題而提供一種基于壓縮感知的說(shuō)話人自適應(yīng)方法,該自 適應(yīng)方法包括以下步驟:
[0008] 1)利用本征音超矢量及訓(xùn)練說(shuō)話人超矢量構(gòu)造冗余超矢量字典;
[0009] 2)根據(jù)冗余超矢量字典的統(tǒng)計(jì)量,建立最大化說(shuō)話人自適應(yīng)問(wèn)題的目標(biāo)函數(shù); [0010] 3)采用匹配追蹤算法求解目標(biāo)函數(shù),通過(guò)迭代優(yōu)化過(guò)程確定最佳子空間維數(shù)及其 基矢量構(gòu)造說(shuō)話人子空間,得到未知說(shuō)話人超矢量的近似最佳稀疏分解即為目標(biāo)函數(shù)的求 解結(jié)果。
[0011] 所述自適應(yīng)方法還包括以步驟3)得到的近似最佳稀疏分解作為初值,對(duì)目標(biāo)函 數(shù)施加稀疏約束,采用正則化原理和投影梯度算法求解目標(biāo)函數(shù),以得到說(shuō)話人自適應(yīng)問(wèn) 題的全局最優(yōu)解。
[0012] 所述步驟1)中冗余超矢量字典的構(gòu)造過(guò)程如下:
[0013] A.利用訓(xùn)練集中S個(gè)說(shuō)話人的訓(xùn)練數(shù)據(jù)構(gòu)建說(shuō)話人無(wú)關(guān)(SI)模型;
[0014] B.根據(jù)訓(xùn)練集中每個(gè)說(shuō)話人的訓(xùn)練數(shù)據(jù),采用自適應(yīng)算法得到S個(gè)訓(xùn)練說(shuō)話人的 SD模型;
[0015] C.根據(jù)訓(xùn)練說(shuō)話人的SD模型構(gòu)建S個(gè)訓(xùn)練說(shuō)話人超矢量;
[0016]D.對(duì)得到的說(shuō)話人超矢量進(jìn)行主分量分析得到S個(gè)說(shuō)話人子空間基矢量,即本征 音超矢量;
[0017] E.將訓(xùn)練說(shuō)話人超矢量和本征音超矢量聯(lián)合起來(lái)構(gòu)造包含K= 2S個(gè)矢量的說(shuō)話 人超矢量字典。
[0018] 所述步驟2)中構(gòu)建的目標(biāo)函數(shù)為:
【主權(quán)項(xiàng)】
1. 一種基于壓縮感知的說(shuō)話人自適應(yīng)方法,其特征在于,該自適應(yīng)方法包括w下步 驟: 1) 利用本征音超矢量及訓(xùn)練說(shuō)話人超矢量構(gòu)造冗余超矢量字典; 2) 根據(jù)冗余超矢量字典的統(tǒng)計(jì)量,建立最大化說(shuō)話人自適應(yīng)問(wèn)題的目標(biāo)函數(shù); 3) 采用匹配追蹤算法求解目標(biāo)函數(shù),通過(guò)迭代優(yōu)化過(guò)程確定最佳子空間維數(shù)及其基矢 量構(gòu)造說(shuō)話人子空間,得到未知說(shuō)話人超矢量的近似最佳稀疏分解即為目標(biāo)函數(shù)的求解結(jié) 果。
2. 根據(jù)權(quán)利要求1所述的基于壓縮感知的說(shuō)話人自適應(yīng)方法,其特征在于,所述自適 應(yīng)方法還包括W步驟3)得到的近似最佳稀疏分解作為初值,對(duì)目標(biāo)函數(shù)施加稀疏約束,采 用正則化原理和投影梯度算法求解目標(biāo)函數(shù),W得到說(shuō)話人自適應(yīng)問(wèn)題的全局最優(yōu)解。
3. 根據(jù)權(quán)利要求2所述的基于壓縮感知的說(shuō)話人自適應(yīng)方法,其特征在于,所述步驟 1) 中冗余超矢量字典的構(gòu)造過(guò)程如下: A. 利用訓(xùn)練集中S個(gè)說(shuō)話人的訓(xùn)練數(shù)據(jù)構(gòu)建說(shuō)話人無(wú)關(guān)(SI)模型; B. 根據(jù)訓(xùn)練集中每個(gè)說(shuō)話人的訓(xùn)練數(shù)據(jù),采用自適應(yīng)算法得到S個(gè)訓(xùn)練說(shuō)話人的SD模 型; C. 根據(jù)訓(xùn)練說(shuō)話人的SD模型構(gòu)建S個(gè)訓(xùn)練說(shuō)話人超矢量; D. 對(duì)得到的說(shuō)話人超矢量進(jìn)行主分量分析得到S個(gè)說(shuō)話人子空間基矢量,即本征音超 矢量; E. 將訓(xùn)練說(shuō)話人超矢量和本征音超矢量聯(lián)合起來(lái)構(gòu)造包含K= 2S個(gè)矢量的說(shuō)話人超 矢量字典。
4. 根據(jù)權(quán)利要求2所述的基于壓縮感知的說(shuō)話人自適應(yīng)方法,其特征在于,所述步驟 2) 中構(gòu)建的目標(biāo)函數(shù)為:
其中,K為說(shuō)話人超矢量字典中的超矢量個(gè)數(shù),Xk為待求解的K維說(shuō)話人坐標(biāo)矢量,Ak為一個(gè)KXK維的矩陣,bK為K維矢量,它們可化圍過(guò)自適應(yīng)數(shù)據(jù)和說(shuō)話人無(wú)關(guān)模型計(jì)算得 到,const為與未知參數(shù)Xk無(wú)關(guān)的常數(shù)項(xiàng)。
5. 根據(jù)權(quán)利要求2所述的基于壓縮感知的說(shuō)話人自適應(yīng)方法,其特征在于,所述步驟 3) 中采用匹配追蹤求解目標(biāo)函數(shù)的過(guò)程為: a. 計(jì)算最大的說(shuō)話人子空間N; N = min { n丫,S} 其中,丫是自適應(yīng)語(yǔ)料總的帖數(shù),n是一個(gè)可設(shè)置的參數(shù),表示增加一帖自適應(yīng)語(yǔ)料 最多需要增加的基矢量個(gè)數(shù),S表示訓(xùn)練集中說(shuō)話人的個(gè)數(shù); b. 從基矢量字典中選擇一個(gè)最佳基矢量作為說(shuō)話人子空間基矢量,并估計(jì)相應(yīng)的說(shuō)話 人坐標(biāo); C.從基矢量字典剩下的基矢量中檢測(cè)與說(shuō)話人子空間基矢量相冗余的基矢量,并將其 從字典中予W去除; d.從字典中剩下的基矢量中選取一個(gè)最佳的基矢量加入說(shuō)話人子空間基矢量集合 中; e. 采用遞推算法更新說(shuō)話人坐標(biāo)矢量; f. 重復(fù)步驟c-e,直至迭代次數(shù)大于N或目標(biāo)函數(shù)變化小于設(shè)定的口限值,此時(shí)根據(jù)所 得到說(shuō)話人子空間基矢量及說(shuō)話人坐標(biāo)矢量構(gòu)造說(shuō)話人超矢量,該說(shuō)話人超矢量即為未知 說(shuō)話人超矢量的近似最佳值。
6.根據(jù)權(quán)利要求2所述的基于壓縮感知的說(shuō)話人自適應(yīng)方法,其特征在于,所述采用 正則化原理和投影梯度算法求解目標(biāo)函數(shù)的過(guò)程如下: A) .W匹配追蹤算法得到的說(shuō)話人因子為投影梯度算法的初始值:
其中;為投影梯度算法的初始值,為匹配追蹤算法得到的說(shuō)話人因子,L為匹配 追蹤算法運(yùn)行的迭代步數(shù); B) .引入1丑則化后,將目標(biāo)函數(shù)轉(zhuǎn)換為:
其中
表示Xk的1 1范數(shù),A〉〇為1 1正則化因子; C) .利用輔助變量將目標(biāo)函數(shù)進(jìn)一步化簡(jiǎn)為帶有負(fù)非約束的二次規(guī)劃函數(shù)
其中,
U= [Ui,U2,…,%]T,V= [Vi,V2,...,VK]T,Uk= (Xk)+,Vk= (-Xk)+,(x)+=max{0,x},lK為長(zhǎng)度為K、元素全為l的列 矢量,Xk=U-V,|%| = 1是11+1是¥; D) .利用梯度投影算法求解步驟C)中函數(shù)S的最優(yōu)解,W得到的最優(yōu)解重構(gòu)說(shuō)話人因 子兩r,該說(shuō)話人因子即為說(shuō)話人自適應(yīng)問(wèn)題的全局最優(yōu)解。
【專利摘要】本發(fā)明涉及一種基于壓縮感知的說(shuō)話人自適應(yīng)方法,屬于連續(xù)語(yǔ)音識(shí)別的聲學(xué)模型自適應(yīng)技術(shù)領(lǐng)域。本發(fā)明將說(shuō)話人自適應(yīng)視為一種高維信號(hào)的稀疏分解問(wèn)題,在訓(xùn)練階段聯(lián)合本征音超矢量和訓(xùn)練說(shuō)話人超矢量構(gòu)造超矢量字典;在自適應(yīng)階段,在稀疏約束條件下,應(yīng)用匹配追蹤算法和l1正則化原理選擇若干個(gè)超矢量進(jìn)行線性組合,對(duì)未知說(shuō)話人超矢量進(jìn)行逼近從而達(dá)到說(shuō)話人自適應(yīng)的目的。本發(fā)明借助于壓縮感知理論在子空間基的構(gòu)造上采用更一般化的超矢量字典;二是在基的選擇上,采用匹配追蹤原理和投影梯度算法求接得到說(shuō)話人超矢量的稀疏表達(dá)。相比傳統(tǒng)的子空間方法,在少量自適應(yīng)數(shù)據(jù)量條件下,本發(fā)明的自適應(yīng)效果優(yōu)于現(xiàn)有的基于說(shuō)話人子空間的自適應(yīng)方法。
【IPC分類】G10L15-07
【公開(kāi)號(hào)】CN104795062
【申請(qǐng)?zhí)枴緾N201510124247
【發(fā)明人】屈丹, 張文林, 李 真, 閆紅剛, 張剛
【申請(qǐng)人】中國(guó)人民解放軍信息工程大學(xué)
【公開(kāi)日】2015年7月22日
【申請(qǐng)日】2015年3月20日