聲學(xué)模型自適應(yīng)方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音識別領(lǐng)域,特指一種聲學(xué)模型自適應(yīng)方法及系統(tǒng)。
【背景技術(shù)】
[0002]現(xiàn)有被證明效果最好的語音識別系統(tǒng)中,聲學(xué)模型大多是在成百上千小時(shí)數(shù)據(jù)集合上訓(xùn)練的深度網(wǎng)絡(luò)模型。目前訓(xùn)練聲學(xué)模型所用的聲學(xué)特征是與說話人無關(guān)的濾波器組(filter-bank,fBank)特征,因此訓(xùn)練出來的聲學(xué)模型也是與說話人無關(guān)的。利用深度網(wǎng)絡(luò)模型來進(jìn)行語音識別,由于該模型訓(xùn)練時(shí)缺少說話人相關(guān)的個(gè)性特征,而使得語音識別的準(zhǔn)確率較低,且語音識別的適應(yīng)性較差。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺陷,提供一種聲學(xué)模型自適應(yīng)方法及系統(tǒng),解決現(xiàn)有技術(shù)中的深度網(wǎng)絡(luò)模型因缺少說話人相關(guān)的個(gè)性特征而使得語音識別的準(zhǔn)確率較低和語音識別的適應(yīng)性較差的問題。
[0004]實(shí)現(xiàn)上述目的的技術(shù)方案是:
[0005]本發(fā)明一種聲學(xué)模型自適應(yīng)方法,包括:
[0006]在聲學(xué)模型訓(xùn)練集上,對每段語音數(shù)據(jù)基于深度神經(jīng)網(wǎng)絡(luò)模型提取與說話人相關(guān)的身份認(rèn)證矢量;
[0007]在所述聲學(xué)模型訓(xùn)練集上,對每段語音數(shù)據(jù)提取聲學(xué)特征參數(shù);以及
[0008]將從所述語音數(shù)據(jù)中提取的所述身份認(rèn)證矢量和所述聲學(xué)特征參數(shù)拼接在一起,并作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入進(jìn)行訓(xùn)練以形成聲學(xué)識別模型。
[0009]本發(fā)明利用深度神經(jīng)網(wǎng)絡(luò)模型提取對應(yīng)說話人的身份認(rèn)證矢量,并利用身份認(rèn)證矢量對深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行重訓(xùn)練,使得深度神經(jīng)網(wǎng)絡(luò)模型具有較好的說話人自適應(yīng)的特點(diǎn),提高了語音識別的準(zhǔn)確率。
[0010]本發(fā)明聲學(xué)模型自適應(yīng)方法的進(jìn)一步改進(jìn)在于,對每段語音數(shù)據(jù)基于深度神經(jīng)網(wǎng)絡(luò)模型提取與說話人相關(guān)的身份認(rèn)證矢量,包括:
[0011]對所述語音數(shù)據(jù)提取出39維麥爾倒譜系數(shù),并根據(jù)計(jì)算公式提取所述身份認(rèn)證矢量,所述計(jì)算公式為:
[0012]M[zfxi] =n[zFxi]+T[zFXD]i[Dxi] (一)
[0013]式一中:M為說話人語音的高斯混合模型均值超矢量,η為深度神經(jīng)網(wǎng)絡(luò)模型超矢量,T為總變異空間,i為服從Ν(0,I)分布的身份認(rèn)證矢量,Z為混合高斯模型的混合度或深度神經(jīng)網(wǎng)絡(luò)的senones個(gè)數(shù),F(xiàn)為麥爾倒譜系數(shù)的維數(shù),F(xiàn) = 39維,D為總變異空間的維度;
[0014]D的范圍在100維至300維之間。
[0015]本發(fā)明聲學(xué)模型自適應(yīng)方法的進(jìn)一步改進(jìn)在于,對每段語音數(shù)據(jù)提取聲學(xué)特征參數(shù),包括:
[0016]對每段語音數(shù)據(jù)中的每一語音幀提取90維聲學(xué)特征參數(shù),所述90維聲學(xué)特征參數(shù)組成包括:29維濾波器組特征及其一階二階差分,I維基頻參數(shù)及其一階二階差分組成。
[0017]本發(fā)明聲學(xué)模型自適應(yīng)方法的進(jìn)一步改進(jìn)在于,將從所述語音數(shù)據(jù)中提取的所述身份認(rèn)證矢量和所述聲學(xué)特征參數(shù)拼接在一起,包括:
[0018]將所述語音數(shù)據(jù)中的當(dāng)前語音幀和其前后5個(gè)語音幀的聲學(xué)特征參數(shù)拼接在一起以形成990維聲學(xué)特征參數(shù);
[0019]將與所述當(dāng)前語音幀的語音數(shù)據(jù)對應(yīng)的身份認(rèn)證矢量與990維聲學(xué)特征參數(shù)拼接在一起。
[0020]本發(fā)明聲學(xué)模型自適應(yīng)方法的進(jìn)一步改進(jìn)在于,還包括在語音識別階段,依據(jù)所述聲學(xué)識別模型進(jìn)行語音識別以形成識別結(jié)果,包括:
[0021 ]提取待識別語音的身份認(rèn)證矢量以形成待識別的身份認(rèn)證矢量;
[0022]提取待識別語音中當(dāng)前語音幀和其前后5個(gè)語音幀的聲學(xué)特征參數(shù)拼接在一起以形成待識別的聲學(xué)特征參數(shù);
[0023]將所述待識別的身份認(rèn)證矢量和所述待識別的聲學(xué)特征參數(shù)拼接在一起并輸入所述聲學(xué)識別模型,并經(jīng)所述聲學(xué)識別模型進(jìn)行解碼以得到識別結(jié)果。
[0024]本發(fā)明還提供了一種聲學(xué)模型自適應(yīng)系統(tǒng),包括:
[0025]聲學(xué)模型訓(xùn)練集單元,用于存儲不同說話人的語音數(shù)據(jù);
[0026]身份認(rèn)證矢量提取單元,與所述聲學(xué)模型訓(xùn)練集單元連接,用于對所述聲學(xué)模型訓(xùn)練集單元中的每段語音數(shù)據(jù)基于深度神經(jīng)網(wǎng)絡(luò)模型提取與說話人相關(guān)的身份認(rèn)證矢量;
[0027]聲學(xué)特征提取單元,與所述聲學(xué)模型訓(xùn)練集單元連接,用于對所述聲學(xué)模型訓(xùn)練集單元中的每段語音數(shù)據(jù)提取聲學(xué)特征參數(shù);以及
[0028]訓(xùn)練模型單元,與所述身份認(rèn)證矢量提取單元和所述聲學(xué)特征提取單元連接,用于將所述身份認(rèn)證矢量和所述聲學(xué)特征參數(shù)拼接在一起并作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入對所述深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,以形成聲學(xué)識別模型。
[0029]本發(fā)明聲學(xué)模型自適應(yīng)系統(tǒng)的進(jìn)一步改進(jìn)在于,所述身份認(rèn)證矢量提取單元利用計(jì)算公式進(jìn)行計(jì)算,所述計(jì)算公式為:
[0030]M[zfxi] =n[zFxi]+T[zFXD]i[Dxi] (一)
[0031]式一中:M為說話人語音的高斯混合模型均值超矢量,η為深度神經(jīng)網(wǎng)絡(luò)模型超矢量,T為總變異空間,i為服從Ν(0,I)分布的身份認(rèn)證矢量,Z為混合高斯模型的混合度或深度神經(jīng)網(wǎng)絡(luò)的senones個(gè)數(shù),F(xiàn)為麥爾倒譜系數(shù)的維數(shù),F(xiàn) = 39維,D為總變異空間的維度,D的范圍在100維至300維之間;
[0032]所述身份認(rèn)證矢量提取單元用于對所述語音數(shù)據(jù)提取出39維麥爾倒譜系數(shù)并根據(jù)所述計(jì)算公式提取身份認(rèn)證矢量。
[0033]本發(fā)明聲學(xué)模型自適應(yīng)系統(tǒng)的進(jìn)一步改進(jìn)在于,所述聲學(xué)特征提取單元用于對每段語音數(shù)據(jù)中的每一語音幀提取90維聲學(xué)特征參數(shù),所述90維聲學(xué)特征參數(shù)組成包括:29維濾波器組特征及其一階二階差分,I維基頻參數(shù)及其一階二階差分。
[0034]本發(fā)明聲學(xué)模型自適應(yīng)系統(tǒng)的進(jìn)一步改進(jìn)在于,所述訓(xùn)練模型單元用于從所述聲學(xué)特征提取單元中獲取所述語音數(shù)據(jù)中的當(dāng)前語音幀和其前后5個(gè)語音幀的聲學(xué)特征參數(shù)并拼接在一起以形成990維聲學(xué)特征參數(shù),所述訓(xùn)練模型單元還用于從所述身份認(rèn)證矢量提取單元中獲取與所述當(dāng)前語音幀的語音數(shù)據(jù)對應(yīng)的身份認(rèn)證矢量,并將所獲取的身份認(rèn)證矢量與990維聲學(xué)特征參數(shù)拼接在一起以作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入。
[0035]本發(fā)明聲學(xué)模型自適應(yīng)系統(tǒng)的進(jìn)一步改進(jìn)在于,還包括語音識別單元,所述語音識別單元與所述身份認(rèn)證矢量提取單元、所述聲學(xué)特征提取單元和所述訓(xùn)練模型單元連接;
[0036]所述語音識別單元通過所述身份認(rèn)證矢量提取單元從待識別語音中提取身份認(rèn)證矢量以形成待識別的身份認(rèn)證矢量;
[0037]所述語音識別單元通過所述聲學(xué)特征提取單元提取待識別語音中當(dāng)前語音幀和其前后5個(gè)語音幀的聲學(xué)特征參數(shù)并拼接在一起以形成待識別的聲學(xué)特征參數(shù);
[0038]所述語音識別單元用于將所述待識別的身份認(rèn)證矢量和所述待識別的聲學(xué)特征參數(shù)拼接在一起并輸入所述聲學(xué)識別模型并經(jīng)所述聲學(xué)識別模型進(jìn)行解碼以得到識別結(jié)果O
【附圖說明】
[0039]圖1為本發(fā)明聲學(xué)模型自適應(yīng)系統(tǒng)的系統(tǒng)圖。
[0040]圖2為本發(fā)明聲學(xué)模型自適應(yīng)系統(tǒng)中經(jīng)重訓(xùn)練的深度網(wǎng)絡(luò)模型的結(jié)構(gòu)示意圖。
[0041 ]圖3為本發(fā)明聲學(xué)模型自適應(yīng)方法的流程圖。
【具體實(shí)施方式】
[0042]下面結(jié)合附圖和具體實(shí)施例對本發(fā)明作進(jìn)一步說明。
[0043]本發(fā)明提供了一種聲學(xué)模型自適應(yīng)方法及系統(tǒng),用于將說話人的身份認(rèn)證矢量加入到聲學(xué)模型訓(xùn)練中以實(shí)現(xiàn)說話人的自適應(yīng),提高語音識別準(zhǔn)確率。在實(shí)際應(yīng)用中,每個(gè)說話人的聲音都具有其特有的個(gè)性,哪怕是發(fā)同一個(gè)音,任意兩位不同說話人的語音信號中所含的聲學(xué)特性都不同,即每一說話人對應(yīng)有匹配的身份認(rèn)證矢量。本發(fā)明將提取出的身份認(rèn)證矢量和聲學(xué)特征參數(shù)拼接后進(jìn)行深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,形成聲學(xué)識別模型,在進(jìn)行識別時(shí),也獲取待識別語音的身份認(rèn)證矢量,將待識別的身份認(rèn)證矢量和待識別的聲學(xué)特征參數(shù)拼接在一起并輸入深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行識別,識別時(shí)深度網(wǎng)絡(luò)神經(jīng)模型可找到與待識別的身份認(rèn)證矢量相適配的身份認(rèn)證矢量,進(jìn)而提高了識別的準(zhǔn)確率,且具有自適應(yīng)的特點(diǎn)。下面結(jié)合附圖對本發(fā)明聲學(xué)模型自適應(yīng)方法及系統(tǒng)進(jìn)行說明。
[0044]參閱圖1,顯示了本發(fā)明聲學(xué)模型自適應(yīng)系統(tǒng)的系統(tǒng)圖。下面結(jié)合圖1,對本發(fā)明聲學(xué)模型自適應(yīng)系統(tǒng)進(jìn)行說明。
[0045]如圖1所示,本發(fā)明聲學(xué)模型自適應(yīng)系統(tǒng)包括聲學(xué)模型訓(xùn)練集單元11、身份認(rèn)證矢量提取單元12、聲學(xué)特征提取單元13、訓(xùn)練模型單元14、語音