日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

聲學模型自適應(yīng)方法及系統(tǒng)的制作方法_3

文檔序號:9826928閱讀:來源:國知局
身份認證矢量,Z為混合高斯模型的混合度或深度神經(jīng)網(wǎng)絡(luò)的senones個數(shù),F(xiàn)為麥爾倒譜系數(shù)的維數(shù),D為總變異空間的維度,D的范圍在100維至300維之間,較佳地,D取值100維。即提取語音數(shù)據(jù)100維身份認證矢量。
[0065]本發(fā)明聲學模型自適應(yīng)方法中,將從語音數(shù)據(jù)中提取的身份認證矢量和聲學特征參數(shù)拼接在一起包括:將語音數(shù)據(jù)中的當前語音幀和其前后5個語音幀的聲學特征參數(shù)拼接在一起,每一語音幀提取90維聲學特征,形成了 990維聲學特征參數(shù);將與當前語音幀的語音數(shù)據(jù)對應(yīng)的身份認證矢量與990維聲學特征參數(shù)拼接在一起,這樣就形成了 1090維特征,該1090維特征作為訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型的輸入。
[0066]在語音識別階段,依據(jù)聲學識別模型進行語音識別以形成識別結(jié)果,包括:提取待識別語音的身份認證矢量以形成待識別的身份認證矢量,該待識別的身份認證矢量為100維待識別的身份認證矢量,提取方法同上,再次不再贅述;提取待識別語音中當前語音幀和其前后5個語音幀的聲學特征參數(shù)拼接在一起以形成待識別的聲學特征參數(shù),每一語音幀提取90維聲學特征參數(shù),待識別的聲學特征參數(shù)為990維待識別的聲學特征參數(shù);將待識別的身份認證矢量和待識別的聲學特征參數(shù)拼接在一起形成1090維特征并輸入聲學識別模型,并經(jīng)聲學識別模型進行解碼以得到識別結(jié)果。
[0067]深度神經(jīng)網(wǎng)絡(luò)模型在語音識別中,被證明為具有最好的識別效果,由于該深度神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)模型時采用與說話人無關(guān)的聲學特征參數(shù)(fbank),使得深度神經(jīng)網(wǎng)絡(luò)模型的說話人自適應(yīng)性能差,在語音識別的準確率上有缺陷。本發(fā)明利用深度神經(jīng)網(wǎng)絡(luò)模型提取說話人的身份認證矢量,在結(jié)合身份認證矢量和聲學特征參數(shù)對深度神經(jīng)網(wǎng)絡(luò)模型進行重訓(xùn)練,旨在提高深度神經(jīng)網(wǎng)絡(luò)模型的說話人自適應(yīng)特點,提高深度神經(jīng)網(wǎng)絡(luò)模型的準確率。
[0068]將本發(fā)明的聲學模型自適應(yīng)方法及系統(tǒng)與基于深度神經(jīng)網(wǎng)絡(luò)的聲學模型在多個中文語音識別測試集合上進行測試后,本發(fā)明的聲學模型自適應(yīng)方法及系統(tǒng)在語音識別詞錯誤率上比傳統(tǒng)的基于深度神經(jīng)網(wǎng)絡(luò)的聲學模型降低了 10%至15%。
[0069]以上結(jié)合附圖實施例對本發(fā)明進行了詳細說明,本領(lǐng)域中普通技術(shù)人員可根據(jù)上述說明對本發(fā)明做出種種變化例。因而,實施例中的某些細節(jié)不應(yīng)構(gòu)成對本發(fā)明的限定,本發(fā)明將以所附權(quán)利要求書界定的范圍作為本發(fā)明的保護范圍。
【主權(quán)項】
1.一種聲學模型自適應(yīng)方法,其特征在于,包括: 在聲學模型訓(xùn)練集上,對每段語音數(shù)據(jù)基于深度神經(jīng)網(wǎng)絡(luò)模型提取與說話人相關(guān)的身份認證矢量; 在所述聲學模型訓(xùn)練集上,對每段語音數(shù)據(jù)提取聲學特征參數(shù);以及將從所述語音數(shù)據(jù)中提取的所述身份認證矢量和所述聲學特征參數(shù)拼接在一起,并作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入進行訓(xùn)練以形成聲學識別模型。2.如權(quán)利要求1所述的聲學模型自適應(yīng)方法,其特征在于,對每段語音數(shù)據(jù)基于深度神經(jīng)網(wǎng)絡(luò)模型提取與說話人相關(guān)的身份認證矢量,包括: 對所述語音數(shù)據(jù)提取出39維麥爾倒譜系數(shù),并根據(jù)計算公式提取所述身份認證矢量,所述計算公式為: M[ZFX1] =n[ZFXl]+T[ZFXD]i[DXl](一) 式一中:M為說話人語音的高斯混合模型均值超矢量,η為深度神經(jīng)網(wǎng)絡(luò)模型超矢量,T為總變異空間,i為服從Ν(0,1)分布的身份認證矢量,Z為混合高斯模型的混合度或深度神經(jīng)網(wǎng)絡(luò)的senones個數(shù),F(xiàn)為麥爾倒譜系數(shù)的維數(shù),F(xiàn) = 39維,D為總變異空間的維度; D的范圍在100維至300維之間。3.如權(quán)利要求1或2所述的聲學模型自適應(yīng)方法,其特征在于,對每段語音數(shù)據(jù)提取聲學特征參數(shù),包括: 對每段語音數(shù)據(jù)中的每一語音幀提取90維聲學特征參數(shù),所述90維聲學特征參數(shù)組成包括:29維濾波器組特征及其一階二階差分,I維基頻參數(shù)及其一階二階差分。4.如權(quán)利要求3所述的聲學模型自適應(yīng)方法,其特征在于,將從所述語音數(shù)據(jù)中提取的所述身份認證矢量和所述聲學特征參數(shù)拼接在一起,包括: 將所述語音數(shù)據(jù)中的當前語音幀和其前后5個語音幀的聲學特征參數(shù)拼接在一起以形成990維聲學特征參數(shù); 將與所述當前語音幀的語音數(shù)據(jù)對應(yīng)的身份認證矢量與990維聲學特征參數(shù)拼接在一起。5.如權(quán)利要求1所述的聲學模型自適應(yīng)方法,其特征在于,還包括在語音識別階段,依據(jù)所述聲學識別模型進行語音識別以形成識別結(jié)果,包括: 提取待識別語音的身份認證矢量以形成待識別的身份認證矢量; 提取待識別語音中當前語音幀和其前后5個語音幀的聲學特征參數(shù)拼接在一起以形成待識別的聲學特征參數(shù); 將所述待識別的身份認證矢量和所述待識別的聲學特征參數(shù)拼接在一起并輸入所述聲學識別模型,并經(jīng)所述聲學識別模型進行解碼以得到識別結(jié)果。6.一種聲學模型自適應(yīng)系統(tǒng),其特征在于,包括: 聲學模型訓(xùn)練集單元,用于存儲不同說話人的語音數(shù)據(jù); 身份認證矢量提取單元,與所述聲學模型訓(xùn)練集單元連接,用于對所述聲學模型訓(xùn)練集單元中的每段語音數(shù)據(jù)基于深度神經(jīng)網(wǎng)絡(luò)模型提取與說話人相關(guān)的身份認證矢量; 聲學特征提取單元,與所述聲學模型訓(xùn)練集單元連接,用于對所述聲學模型訓(xùn)練集單元中的每段語音數(shù)據(jù)提取聲學特征參數(shù);以及 訓(xùn)練模型單元,與所述身份認證矢量提取單元和所述聲學特征提取單元連接,用于將所述身份認證矢量和所述聲學特征參數(shù)拼接在一起并作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入對所述深度神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,以形成聲學識別模型。7.如權(quán)利要求6所述的聲學模型自適應(yīng)系統(tǒng),其特征在于,所述身份認證矢量提取單元利用計算公式進行計算,所述計算公式為: M[ZFX1] =n[ZFXl]+T[ZFXD]i[DXl](一) 式一中:M為說話人語音的高斯混合模型均值超矢量,η為深度神經(jīng)網(wǎng)絡(luò)模型超矢量,T為總變異空間,i為服從Ν(0,1)分布的身份認證矢量,Z為混合高斯模型的混合度或深度神經(jīng)網(wǎng)絡(luò)的senones個數(shù),F(xiàn)為麥爾倒譜系數(shù)的維數(shù),F(xiàn) = 39維,D為總變異空間的維度,D的范圍在100維至300維之間; 所述身份認證矢量提取單元用于對所述語音數(shù)據(jù)提取出39維麥爾倒譜系數(shù)并根據(jù)所述計算公式提取身份認證矢量。8.如權(quán)利要求6或7所述的聲學模型自適應(yīng)系統(tǒng),其特征在于,所述聲學特征提取單元用于對每段語音數(shù)據(jù)中的每一語音幀提取90維聲學特征參數(shù),所述90維聲學特征參數(shù)組成包括:29維濾波器組特征及其一階二階差分,I維基頻參數(shù)及其一階二階差分。9.如權(quán)利要求8所述的聲學模型自適應(yīng)系統(tǒng),其特征在于,所述訓(xùn)練模型單元用于從所述聲學特征提取單元中獲取所述語音數(shù)據(jù)中的當前語音幀和其前后5個語音幀的聲學特征參數(shù)并拼接在一起以形成990維聲學特征參數(shù),所述訓(xùn)練模型單元還用于從所述身份認證矢量提取單元中獲取與所述當前語音幀的語音數(shù)據(jù)對應(yīng)的身份認證矢量,并將所獲取的身份認證矢量與990維聲學特征參數(shù)拼接在一起以作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入。10.如權(quán)利要求6所述的聲學模型自適應(yīng)系統(tǒng),其特征在于,還包括語音識別單元,所述語音識別單元與所述身份認證矢量提取單元、所述聲學特征提取單元和所述訓(xùn)練模型單元連接; 所述語音識別單元通過所述身份認證矢量提取單元從待識別語音中提取身份認證矢量以形成待識別的身份認證矢量; 所述語音識別單元通過所述聲學特征提取單元提取待識別語音中當前語音幀和其前后5個語音幀的聲學特征參數(shù)并拼接在一起以形成待識別的聲學特征參數(shù); 所述語音識別單元用于將所述待識別的身份認證矢量和所述待識別的聲學特征參數(shù)拼接在一起并輸入所述聲學識別模型并經(jīng)所述聲學識別模型進行解碼以得到識別結(jié)果。
【專利摘要】本發(fā)明涉及一種聲學模型自適應(yīng)方法及系統(tǒng),該方法包括:在聲學模型訓(xùn)練集上,對每段語音數(shù)據(jù)基于深度神經(jīng)網(wǎng)絡(luò)模型提取與說話人相關(guān)的身份認證矢量;在所述聲學模型訓(xùn)練集上,對每段語音數(shù)據(jù)提取聲學特征參數(shù);將從所述語音數(shù)據(jù)中提取的所述身份認證矢量和所述聲學特征參數(shù)拼接在一起,并作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入進行訓(xùn)練以形成聲學識別模型;以及在語音識別階段,依據(jù)所述聲學識別模型進行語音識別以形成識別結(jié)果。本發(fā)明利用深度神經(jīng)網(wǎng)絡(luò)模型提取對應(yīng)說話人的身份認證矢量,并利用身份認證矢量對深度神經(jīng)網(wǎng)絡(luò)模型進行重訓(xùn)練,使得深度神經(jīng)網(wǎng)絡(luò)模型具有較好的說話人自適應(yīng)的特點,提高了語音識別的準確率。
【IPC分類】G10L15/07
【公開號】CN105590625
【申請?zhí)枴緾N201610156697
【發(fā)明人】李軼杰, 劉青松, 許東星
【申請人】上海語知義信息技術(shù)有限公司
【公開日】2016年5月18日
【申請日】2016年3月18日
當前第3頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1