聲學(xué)模型自適應(yīng)方法及系統(tǒng)的制作方法

文檔序號：9826928閱讀：506來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

聲學(xué)模型自適應(yīng)方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音識別領(lǐng)域，特指一種聲學(xué)模型自適應(yīng)方法及系統(tǒng)。
【背景技術(shù)】
[0002]現(xiàn)有被證明效果最好的語音識別系統(tǒng)中，聲學(xué)模型大多是在成百上千小時(shí)數(shù)據(jù)集合上訓(xùn)練的深度網(wǎng)絡(luò)模型。目前訓(xùn)練聲學(xué)模型所用的聲學(xué)特征是與說話人無關(guān)的濾波器組(filter-bank，fBank)特征，因此訓(xùn)練出來的聲學(xué)模型也是與說話人無關(guān)的。利用深度網(wǎng)絡(luò)模型來進(jìn)行語音識別，由于該模型訓(xùn)練時(shí)缺少說話人相關(guān)的個(gè)性特征，而使得語音識別的準(zhǔn)確率較低，且語音識別的適應(yīng)性較差。

【發(fā)明內(nèi)容】

[0003]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺陷，提供一種聲學(xué)模型自適應(yīng)方法及系統(tǒng)，解決現(xiàn)有技術(shù)中的深度網(wǎng)絡(luò)模型因缺少說話人相關(guān)的個(gè)性特征而使得語音識別的準(zhǔn)確率較低和語音識別的適應(yīng)性較差的問題。
[0004]實(shí)現(xiàn)上述目的的技術(shù)方案是:
[0005]本發(fā)明一種聲學(xué)模型自適應(yīng)方法，包括:
[0006]在聲學(xué)模型訓(xùn)練集上，對每段語音數(shù)據(jù)基于深度神經(jīng)網(wǎng)絡(luò)模型提取與說話人相關(guān)的身份認(rèn)證矢量；
[0007]在所述聲學(xué)模型訓(xùn)練集上，對每段語音數(shù)據(jù)提取聲學(xué)特征參數(shù)；以及
[0008]將從所述語音數(shù)據(jù)中提取的所述身份認(rèn)證矢量和所述聲學(xué)特征參數(shù)拼接在一起，并作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入進(jìn)行訓(xùn)練以形成聲學(xué)識別模型。
[0009]本發(fā)明利用深度神經(jīng)網(wǎng)絡(luò)模型提取對應(yīng)說話人的身份認(rèn)證矢量，并利用身份認(rèn)證矢量對深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行重訓(xùn)練，使得深度神經(jīng)網(wǎng)絡(luò)模型具有較好的說話人自適應(yīng)的特點(diǎn)，提高了語音識別的準(zhǔn)確率。
[0010]本發(fā)明聲學(xué)模型自適應(yīng)方法的進(jìn)一步改進(jìn)在于，對每段語音數(shù)據(jù)基于深度神經(jīng)網(wǎng)絡(luò)模型提取與說話人相關(guān)的身份認(rèn)證矢量，包括:
[0011]對所述語音數(shù)據(jù)提取出39維麥爾倒譜系數(shù)，并根據(jù)計(jì)算公式提取所述身份認(rèn)證矢量，所述計(jì)算公式為:
[0012]M[zfxi] =n[zFxi]+T[zFXD]i[Dxi] (一)
[0013]式一中:M為說話人語音的高斯混合模型均值超矢量，η為深度神經(jīng)網(wǎng)絡(luò)模型超矢量，T為總變異空間，i為服從Ν(0，I)分布的身份認(rèn)證矢量，Z為混合高斯模型的混合度或深度神經(jīng)網(wǎng)絡(luò)的senones個(gè)數(shù)，F(xiàn)為麥爾倒譜系數(shù)的維數(shù)，F(xiàn) = 39維，D為總變異空間的維度；
[0014]D的范圍在100維至300維之間。
[0015]本發(fā)明聲學(xué)模型自適應(yīng)方法的進(jìn)一步改進(jìn)在于，對每段語音數(shù)據(jù)提取聲學(xué)特征參數(shù)，包括:
[0016]對每段語音數(shù)據(jù)中的每一語音幀提取90維聲學(xué)特征參數(shù)，所述90維聲學(xué)特征參數(shù)組成包括:29維濾波器組特征及其一階二階差分，I維基頻參數(shù)及其一階二階差分組成。
[0017]本發(fā)明聲學(xué)模型自適應(yīng)方法的進(jìn)一步改進(jìn)在于，將從所述語音數(shù)據(jù)中提取的所述身份認(rèn)證矢量和所述聲學(xué)特征參數(shù)拼接在一起，包括:
[0018]將所述語音數(shù)據(jù)中的當(dāng)前語音幀和其前后5個(gè)語音幀的聲學(xué)特征參數(shù)拼接在一起以形成990維聲學(xué)特征參數(shù)；
[0019]將與所述當(dāng)前語音幀的語音數(shù)據(jù)對應(yīng)的身份認(rèn)證矢量與990維聲學(xué)特征參數(shù)拼接在一起。
[0020]本發(fā)明聲學(xué)模型自適應(yīng)方法的進(jìn)一步改進(jìn)在于，還包括在語音識別階段，依據(jù)所述聲學(xué)識別模型進(jìn)行語音識別以形成識別結(jié)果，包括:
[0021 ]提取待識別語音的身份認(rèn)證矢量以形成待識別的身份認(rèn)證矢量；
[0022]提取待識別語音中當(dāng)前語音幀和其前后5個(gè)語音幀的聲學(xué)特征參數(shù)拼接在一起以形成待識別的聲學(xué)特征參數(shù)；
[0023]將所述待識別的身份認(rèn)證矢量和所述待識別的聲學(xué)特征參數(shù)拼接在一起并輸入所述聲學(xué)識別模型，并經(jīng)所述聲學(xué)識別模型進(jìn)行解碼以得到識別結(jié)果。
[0024]本發(fā)明還提供了一種聲學(xué)模型自適應(yīng)系統(tǒng)，包括:
[0025]聲學(xué)模型訓(xùn)練集單元，用于存儲不同說話人的語音數(shù)據(jù)；
[0026]身份認(rèn)證矢量提取單元，與所述聲學(xué)模型訓(xùn)練集單元連接，用于對所述聲學(xué)模型訓(xùn)練集單元中的每段語音數(shù)據(jù)基于深度神經(jīng)網(wǎng)絡(luò)模型提取與說話人相關(guān)的身份認(rèn)證矢量；
[0027]聲學(xué)特征提取單元，與所述聲學(xué)模型訓(xùn)練集單元連接，用于對所述聲學(xué)模型訓(xùn)練集單元中的每段語音數(shù)據(jù)提取聲學(xué)特征參數(shù);以及
[0028]訓(xùn)練模型單元，與所述身份認(rèn)證矢量提取單元和所述聲學(xué)特征提取單元連接，用于將所述身份認(rèn)證矢量和所述聲學(xué)特征參數(shù)拼接在一起并作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入對所述深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，以形成聲學(xué)識別模型。
[0029]本發(fā)明聲學(xué)模型自適應(yīng)系統(tǒng)的進(jìn)一步改進(jìn)在于，所述身份認(rèn)證矢量提取單元利用計(jì)算公式進(jìn)行計(jì)算，所述計(jì)算公式為:
[0030]M[zfxi] =n[zFxi]+T[zFXD]i[Dxi] (一)
[0031]式一中:M為說話人語音的高斯混合模型均值超矢量，η為深度神經(jīng)網(wǎng)絡(luò)模型超矢量，T為總變異空間，i為服從Ν(0，I)分布的身份認(rèn)證矢量，Z為混合高斯模型的混合度或深度神經(jīng)網(wǎng)絡(luò)的senones個(gè)數(shù)，F(xiàn)為麥爾倒譜系數(shù)的維數(shù)，F(xiàn) = 39維，D為總變異空間的維度，D的范圍在100維至300維之間；
[0032]所述身份認(rèn)證矢量提取單元用于對所述語音數(shù)據(jù)提取出39維麥爾倒譜系數(shù)并根據(jù)所述計(jì)算公式提取身份認(rèn)證矢量。
[0033]本發(fā)明聲學(xué)模型自適應(yīng)系統(tǒng)的進(jìn)一步改進(jìn)在于，所述聲學(xué)特征提取單元用于對每段語音數(shù)據(jù)中的每一語音幀提取90維聲學(xué)特征參數(shù)，所述90維聲學(xué)特征參數(shù)組成包括:29維濾波器組特征及其一階二階差分，I維基頻參數(shù)及其一階二階差分。
[0034]本發(fā)明聲學(xué)模型自適應(yīng)系統(tǒng)的進(jìn)一步改進(jìn)在于，所述訓(xùn)練模型單元用于從所述聲學(xué)特征提取單元中獲取所述語音數(shù)據(jù)中的當(dāng)前語音幀和其前后5個(gè)語音幀的聲學(xué)特征參數(shù)并拼接在一起以形成990維聲學(xué)特征參數(shù)，所述訓(xùn)練模型單元還用于從所述身份認(rèn)證矢量提取單元中獲取與所述當(dāng)前語音幀的語音數(shù)據(jù)對應(yīng)的身份認(rèn)證矢量，并將所獲取的身份認(rèn)證矢量與990維聲學(xué)特征參數(shù)拼接在一起以作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入。
[0035]本發(fā)明聲學(xué)模型自適應(yīng)系統(tǒng)的進(jìn)一步改進(jìn)在于，還包括語音識別單元，所述語音識別單元與所述身份認(rèn)證矢量提取單元、所述聲學(xué)特征提取單元和所述訓(xùn)練模型單元連接；
[0036]所述語音識別單元通過所述身份認(rèn)證矢量提取單元從待識別語音中提取身份認(rèn)證矢量以形成待識別的身份認(rèn)證矢量；
[0037]所述語音識別單元通過所述聲學(xué)特征提取單元提取待識別語音中當(dāng)前語音幀和其前后5個(gè)語音幀的聲學(xué)特征參數(shù)并拼接在一起以形成待識別的聲學(xué)特征參數(shù)；
[0038]所述語音識別單元用于將所述待識別的身份認(rèn)證矢量和所述待識別的聲學(xué)特征參數(shù)拼接在一起并輸入所述聲學(xué)識別模型并經(jīng)所述聲學(xué)識別模型進(jìn)行解碼以得到識別結(jié)果O
【附圖說明】
[0039]圖1為本發(fā)明聲學(xué)模型自適應(yīng)系統(tǒng)的系統(tǒng)圖。
[0040]圖2為本發(fā)明聲學(xué)模型自適應(yīng)系統(tǒng)中經(jīng)重訓(xùn)練的深度網(wǎng)絡(luò)模型的結(jié)構(gòu)示意圖。
[0041 ]圖3為本發(fā)明聲學(xué)模型自適應(yīng)方法的流程圖。
【具體實(shí)施方式】
[0042]下面結(jié)合附圖和具體實(shí)施例對本發(fā)明作進(jìn)一步說明。
[0043]本發(fā)明提供了一種聲學(xué)模型自適應(yīng)方法及系統(tǒng)，用于將說話人的身份認(rèn)證矢量加入到聲學(xué)模型訓(xùn)練中以實(shí)現(xiàn)說話人的自適應(yīng)，提高語音識別準(zhǔn)確率。在實(shí)際應(yīng)用中，每個(gè)說話人的聲音都具有其特有的個(gè)性，哪怕是發(fā)同一個(gè)音，任意兩位不同說話人的語音信號中所含的聲學(xué)特性都不同，即每一說話人對應(yīng)有匹配的身份認(rèn)證矢量。本發(fā)明將提取出的身份認(rèn)證矢量和聲學(xué)特征參數(shù)拼接后進(jìn)行深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練，形成聲學(xué)識別模型，在進(jìn)行識別時(shí)，也獲取待識別語音的身份認(rèn)證矢量，將待識別的身份認(rèn)證矢量和待識別的聲學(xué)特征參數(shù)拼接在一起并輸入深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行識別，識別時(shí)深度網(wǎng)絡(luò)神經(jīng)模型可找到與待識別的身份認(rèn)證矢量相適配的身份認(rèn)證矢量，進(jìn)而提高了識別的準(zhǔn)確率，且具有自適應(yīng)的特點(diǎn)。下面結(jié)合附圖對本發(fā)明聲學(xué)模型自適應(yīng)方法及系統(tǒng)進(jìn)行說明。
[0044]參閱圖1，顯示了本發(fā)明聲學(xué)模型自適應(yīng)系統(tǒng)的系統(tǒng)圖。下面結(jié)合圖1，對本發(fā)明聲學(xué)模型自適應(yīng)系統(tǒng)進(jìn)行說明。
[0045]如圖1所示，本發(fā)明聲學(xué)模型自適應(yīng)系統(tǒng)包括聲學(xué)模型訓(xùn)練集單元11、身份認(rèn)證矢量提取單元12、聲學(xué)特征提取單元13、訓(xùn)練模型單元14、語音

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3