語音識別方法和裝置的制造方法
【專利摘要】本發(fā)明公開了一種語音識別方法和裝置,該方法和裝置通過在語音信號中提取多個語音數(shù)據(jù)包,對每個語音數(shù)據(jù)包進行語音識別,并根據(jù)前一語音數(shù)據(jù)包的語速來生成后一語音數(shù)據(jù)包的語音識別過程所需提取語音特征向量的數(shù)量,無需獲取完整的語音信號即可實現(xiàn)根據(jù)語音信號的語速變化來調(diào)整語音識別進程,使得語音識別效率和準(zhǔn)確性均達到很高水準(zhǔn)。
【專利說明】
語音識別方法和裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明實施例設(shè)及語音信號處理技術(shù)領(lǐng)域,尤其設(shè)及一種語音識別方法和裝置。
【背景技術(shù)】
[0002] 語音識別是語音信號處理技術(shù)領(lǐng)域中一個重要的研究方向,是將采集到的語音信 號中反映說話人生理和行為特征的語音特征與已有聲學(xué)模型做比對,從而得出語音內(nèi)容的 過程,隨著當(dāng)前電話語音、在線視頻語音等語音產(chǎn)品的快速發(fā)展,語音識別的需求越來越 多。
[0003] 在進行語音識別的過程中,由于不同說話人的說話習(xí)慣不一樣,說話速度也會有 較大差異,而已有聲學(xué)模型多是基于正常語速的自然語音產(chǎn)生的,在說話速度過快時,常會 產(chǎn)生語音與聲學(xué)模型的失配,導(dǎo)致語音識別準(zhǔn)確率低。
[0004] 現(xiàn)有技術(shù)中,一般采用如下方法來解決說話速度過快時,語音與聲學(xué)模型易失配 的問題,該方法具體包括如下步驟: 陽0化]1、采集用戶所說的全部語音信號。
[0006] 2、語音信號的語速評估,分為后端評估和前端評估兩個步驟,后端評估是指利用 人工標(biāo)注或者利用識別器對語音信號進行識別和標(biāo)注,使用標(biāo)注信息來計算語速,前端評 估是指在信號層面,比如利用聲學(xué)信號在時域上的能量包絡(luò)的變化率,作為語速的參考值。
[0007] 3、語音信號或聲學(xué)模型的語速適應(yīng),也分為前端適應(yīng)和后端適應(yīng)兩個步驟,在說 話速度過快時,前端適應(yīng)是指對語音信號進行拉伸W放慢語速,后端適應(yīng)是指調(diào)整聲學(xué)模 型的結(jié)構(gòu)或參數(shù)和調(diào)節(jié)識別參數(shù)來匹配說話速度。
[0008] 4、完成語速適應(yīng)后,對整句語音進行語音識別。
[0009] 然而,在實現(xiàn)本發(fā)明過程中,該現(xiàn)有技術(shù)中至少存在如下問題:
[0010] 由于在語音識別過程中需收集當(dāng)前用戶請求的全部語音信號并對全部語音信號 進行語速評估和預(yù)設(shè)適應(yīng)之后,才能進行語音識別,在全部語音信號的數(shù)據(jù)量較大時,使得 語音識別前的處理周期較長,該處理周期所產(chǎn)生的系統(tǒng)延時甚至大于全部語音的時長,降 低了語音識別的效率。
【發(fā)明內(nèi)容】
[0011] 本發(fā)明實施例提供一種語音識別方法和裝置,用W解決現(xiàn)有技術(shù)中語音識別效率 較低的技術(shù)問題。
[0012] 本發(fā)明實施例提供一種語音識別方法,包括:
[0013] 獲取語音信號,在所述語音信號中提取多個語音數(shù)據(jù)包,所述多個語音數(shù)據(jù)包內(nèi) 包括在時間上連續(xù)的第一語音數(shù)據(jù)包和第二語音數(shù)據(jù)包;
[0014] 從所述第一語音數(shù)據(jù)包中提取第一數(shù)量的第一語音特征向量;
[0015] 根據(jù)各第一語音特征向量與預(yù)設(shè)的馬爾科夫聲學(xué)模型,確定所述第一語音數(shù)據(jù)包 的第一語音語速;
[0016] 根據(jù)所述第一語音語速與標(biāo)準(zhǔn)語音語速,確定第二數(shù)量;
[0017] 從所述第二語音數(shù)據(jù)包提取第二數(shù)量的第二語音特征向量;
[0018] 根據(jù)所述第二語音特征向量與預(yù)設(shè)馬爾科夫聲學(xué)模型,確定第二語音數(shù)據(jù)包的第 二識別結(jié)果。
[0019] 本發(fā)明實施例還提供一種語音識別裝置,包括:該語音識別裝置包括:
[0020] 語音數(shù)據(jù)包提取模塊,獲取語音信號,在所述語音信號中提取多個語音數(shù)據(jù)包,所 述多個語音數(shù)據(jù)包中包括在時間上連續(xù)的第一語音數(shù)據(jù)包和第二語音數(shù)據(jù)包;
[0021] 第一特征向量提取模塊,從所述第一語音數(shù)據(jù)包中提取第一數(shù)量的第一語音特征 向量;
[0022] 第一語音語速確定模塊,根據(jù)各第一語音特征向量與預(yù)設(shè)的馬爾科夫聲學(xué)模型, 確定所述第一語音數(shù)據(jù)包的第一語音語速;
[0023] 第二數(shù)量確定模塊,根據(jù)所述第一語音語速與標(biāo)準(zhǔn)語音語速,確定第二數(shù)量;
[0024] 第二特征向量提取模塊,從所述第二語音數(shù)據(jù)包提取第二數(shù)量的第二語音特征向 量;
[0025] 第二識別結(jié)果確定模塊,根據(jù)所述第二語音特征向量與預(yù)設(shè)馬爾科夫聲學(xué)模型, 確定第二語音數(shù)據(jù)包的第二識別結(jié)果。
[00%] 本發(fā)明實施例所提供的語音識別方法和裝置,通過在語音信號中提取多個語音數(shù) 據(jù)包,對每個語音數(shù)據(jù)包分別進行語音識別,并根據(jù)前一語音數(shù)據(jù)包的語速來生成后一語 音數(shù)據(jù)包的語音識別過程所需提取語音特征向量的數(shù)量,無需獲取完整的語音信號即可實 現(xiàn)根據(jù)語音信號的語速變化來調(diào)整語音識別進程,使得語音識別效率和準(zhǔn)確性均達到很高 水準(zhǔn)。
【附圖說明】
[0027] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā) 明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可W根 據(jù)運些附圖獲得其他的附圖。
[002引圖1為本發(fā)明實施例中語音識別方法的過程;
[0029] 圖2為本發(fā)明實施例中語音識別方法內(nèi)根據(jù)各第一語音特征向量與預(yù)設(shè)的馬爾 科夫聲學(xué)模型,確定所述第一語音數(shù)據(jù)包的第一語音語速的具體過程.
[0030] 圖3為本發(fā)明實施例中語音識別方法內(nèi)根據(jù)第一最優(yōu)識別路徑的跳轉(zhuǎn)概率更新 馬爾科夫聲學(xué)模型條狀概率的具體過程;
[0031] 圖4為本發(fā)明實施例中語音識別裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0032] 為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員 在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0033] 現(xiàn)有技術(shù)通過獲取完整語音信號來進行語音識別的過程中,可能存在語音識別效 率低的問題,本發(fā)明實施例提供一種解決前述問題的語音識別方法,W下結(jié)合附圖詳細(xì)描 述本方法。
[0034] 圖1為本發(fā)明實施例中語音識別方法的過程,具體包括如下步驟。
[0035] S10、獲取語音信號,在語音信號中提取多個語音數(shù)據(jù)包,前述多個語音數(shù)據(jù)包中 包括在時間上連續(xù)的第一語音數(shù)據(jù)包和第二語音數(shù)據(jù)包。
[0036] 由于所獲取的語音信號為時域上連續(xù)的信號,W時間為基準(zhǔn),在該語音信號中提 取多個語音數(shù)據(jù)包,并保證相鄰的兩個語音數(shù)據(jù)包在時間上連續(xù)。
[0037] 本發(fā)明實施例中,每個語音數(shù)據(jù)包的時長設(shè)定為0. 5秒,在獲取語音信號的過程 中,每隔0. 5秒便生成一個語音數(shù)據(jù)包,通過對每個語音數(shù)據(jù)包進行語音識別并獲得識別 結(jié)果,后續(xù)將所有語音數(shù)據(jù)包的識別結(jié)果進行匯總,則能夠得到語音信號的完整識別結(jié)果。
[0038] 值得注意的是,第一語音數(shù)據(jù)包和第二語音數(shù)據(jù)包是泛指從語音信號中提取的在 時間上連續(xù)的任意兩個語音數(shù)據(jù)包,并非特指從語音信號中提取出的第一個和第二個語音 數(shù)據(jù)包,在此不做寶述。
[0039] S20、從第一語音數(shù)據(jù)包中提取第一數(shù)量的第一語音特征向量。
[0040] 本發(fā)明實施例中,在獲取第一語音數(shù)據(jù)包后,通過傅里葉轉(zhuǎn)換和采樣處理將時域 上連續(xù)的第一語音數(shù)據(jù)包轉(zhuǎn)換為在頻域上離散的、第一數(shù)量的第一語音特征向量。
[0041] 前述第一語音特征向量可W是預(yù)設(shè)帖長的語音頻譜信號,也可W是梅爾頻率倒譜 系數(shù)(Mel-Frequen巧 Cepstral Coefficients, MFCCs)。
[0042] 其中,通過傅里葉轉(zhuǎn)換和采樣處理來得到第一語音特征向量為業(yè)內(nèi)常規(guī)手段,在 此不做寶述。
[0043] S30、根據(jù)各第一語音特征向量與預(yù)設(shè)的馬爾科夫聲學(xué)模型,確定第一語音數(shù)據(jù)包 的第一語音語速。
[0044] 預(yù)設(shè)的馬爾科夫聲學(xué)模型通過大量的自然語音語料訓(xùn)練得到的統(tǒng)計模型,并根據(jù) 目標(biāo)區(qū)域的人種、發(fā)音習(xí)慣進行了調(diào)整,W確保后續(xù)語音識別的準(zhǔn)確性。
[0045] 通過將第一語音特征向量與馬爾科夫聲學(xué)模型作比對,得到第一語音數(shù)據(jù)包中各 個第一語音特征向量的第一識別子結(jié)果。
[0046] 將運些第一識別子結(jié)果進行對比,明確其中發(fā)生了多少次自跳和跳轉(zhuǎn),從而得到 第一識別子結(jié)果中跳轉(zhuǎn)概率,將跳轉(zhuǎn)概率與第一語音數(shù)據(jù)包的時長做比對,則可得出第一 語音語速。
[0047] S40、根據(jù)所述第一語音語速與標(biāo)準(zhǔn)語音語速,確定第二數(shù)量。
[0048] 標(biāo)準(zhǔn)語音語速為預(yù)先設(shè)定,一般W普通自然人的常規(guī)語速做標(biāo)準(zhǔn)。
[0049] 本發(fā)明實施例中,第一語音數(shù)據(jù)包和第二語音數(shù)據(jù)包的時長相同,前述第二數(shù)量 為將第一語音語速和標(biāo)準(zhǔn)語音語速的比值與第一數(shù)量作乘積的結(jié)果。
[0050] W根據(jù)第一語音特征向量得到第一語音語速是標(biāo)準(zhǔn)語速的2倍為例,第二數(shù)量為 第一數(shù)量的2倍,即在第二語音數(shù)據(jù)包中獲取到的第二語音特征向量的數(shù)量是第一語音特 征向量的數(shù)量2倍。
[0051] S50、從所述第二語音數(shù)據(jù)包提取第二數(shù)量的第二語音特征向量。
[0052] 本發(fā)明實施例中,步驟S50可W通過如下步驟來實現(xiàn):
[0053] 獲取相鄰第一語音特征向量之間的第一帖移;
[0054] 根據(jù)所述第二數(shù)量和第一數(shù)量調(diào)整所述第一帖移,得到第二帖移。
[0055] 根據(jù)所述第二帖移,從所述第二語音數(shù)據(jù)包提取第二語音特征向量,W使得所述 第二語音特征向量的數(shù)量為第二數(shù)量。
[0056] 其中,第二帖移根據(jù)所述第二數(shù)量和第一數(shù)量的比值來縮小第一帖移得到。仍W 根據(jù)第一語音特征向量得到第一語音語速是標(biāo)準(zhǔn)語速的2倍為例,第二數(shù)量為第一數(shù)量的 2倍,則第二帖移為第一帖移的一半,通過縮小相鄰第二語音特征向量之間的第二帖移,使 得在時長相同的第二語音數(shù)據(jù)包中得到第二數(shù)量的第二語音特征向量。
[0057] W第一數(shù)量等于8為例,在第二數(shù)量與第一數(shù)量一樣,即等于8時,在第二識別子 結(jié)果中發(fā)生了 3次自跳和5次跳轉(zhuǎn)時,從而得到第二識別子結(jié)果的跳轉(zhuǎn)概率為5/8 ;而第 二數(shù)量為第一數(shù)量的兩倍,即等于16時,由于同一語音數(shù)據(jù)包中跳轉(zhuǎn)動作的數(shù)量總是確定 的,則第二識別子結(jié)果中會發(fā)生了 11次自跳和5次跳轉(zhuǎn),得到第二識別子結(jié)果的跳轉(zhuǎn)概率 為5/16。在第二語音數(shù)據(jù)包的時長確定時,則能實現(xiàn)根據(jù)第二語音特征向量得到第二語音 數(shù)據(jù)包的第二語音語速修正為其真實語速的一半,即使得第二語音語速被修正為與標(biāo)準(zhǔn)語 速相同。
[0058] 通過第一語音語速來修正第二數(shù)量,在第二語音數(shù)據(jù)包的時長和語音數(shù)據(jù)一定 時,使得每個第二語音特征向量的所含詞素變少,使其接近標(biāo)準(zhǔn)語音語速,提高第二語音特 征向量和馬爾科夫聲學(xué)模型比對得到識別結(jié)果的精度。
[0059] 當(dāng)然,在對第二語音數(shù)據(jù)包后的第Ξ語音數(shù)據(jù)包進行識別時,根據(jù)第二數(shù)量所得 到的第二語音語速來得到在第Ξ語音數(shù)據(jù)包中提取的第Ξ語音特征向量的數(shù)量。
[0060] W第二語音數(shù)據(jù)包的真實語速為標(biāo)準(zhǔn)語速的2倍為例,由于第二數(shù)量相對于第一 數(shù)量翻倍,則根據(jù)第二數(shù)量得到的第二語速被修正為與標(biāo)準(zhǔn)語速相同,則第Ξ?dāng)?shù)量為1*20 =20 第二語音數(shù)據(jù)包的真實語速為標(biāo)準(zhǔn)語速的4倍為例,則根據(jù)第二數(shù)量得到的第二 語速被修正為是標(biāo)準(zhǔn)語速的2倍,則第Ξ?dāng)?shù)量為2*20 = 40。
[0061] 本發(fā)明的實施例中,還可對語音特征向量的數(shù)量設(shè)定上限,避免語音特征向量的 數(shù)量不斷膨脹,導(dǎo)致語音識別系統(tǒng)出現(xiàn)異常。
[0062] 當(dāng)然,本發(fā)明的其他實施例中,步驟S50還可W通過如下步驟來實現(xiàn):
[0063] 從所述第二語音數(shù)據(jù)包中提取第一數(shù)量的第二語音特征向量;
[0064] 在相鄰的第二語音特征向量之間插入特定數(shù)量的第二語音特征向量,將所述第二 語音特征向量的數(shù)量調(diào)整為第二數(shù)量。
[0065] 仍W根據(jù)第一語音特征向量得到第一語音語速是標(biāo)準(zhǔn)語速的2倍,且第一數(shù)量等 于8為例,預(yù)先在第二語音數(shù)據(jù)包中提取8個第二語音特征向量,并在相鄰的第二語音特征 向量之間插入1個第二語音特征向量,使得得到16個第二語音特征向量。
[0066] 通過前述方式來提高語音識別精確性的原理與前述實施例相同,在此不做寶述。
[0067] S60、根據(jù)第二語音特征向量與馬爾科夫聲學(xué)模型,確定第二語音數(shù)據(jù)包的第二識 別結(jié)果。
[0068] 當(dāng)然,完整的語音信號還包括后續(xù)的其他語音數(shù)據(jù)包,均可通過本發(fā)明實施例所 提供的方式來逐一得到其識別結(jié)果,后續(xù)將所有語音數(shù)據(jù)包的識別結(jié)果進行匯總,則能夠 得到語音信號的完整識別結(jié)果
[0069] 本發(fā)明實施例所提供的語音識別方法,通過在語音信號中提取多個語音數(shù)據(jù)包, 分別對每個語音數(shù)據(jù)包進行語音識別,并根據(jù)前一語音數(shù)據(jù)包的語速來生成后一語音數(shù)據(jù) 包的語音識別過程所需提取語音特征向量的數(shù)量,無需獲取完整的語音信號即可實現(xiàn)根據(jù) 語音信號的語速變化來調(diào)整語音識別進程,使得語音識別效率和準(zhǔn)確性均達到很高水準(zhǔn)。
[0070] 本發(fā)明實施例中,語音識別方法還包括:在有第一識別子結(jié)果為新詞的首個詞素 時,在該第一識別子結(jié)果的參考概率值上更新預(yù)設(shè)的插入懲罰概率值,作為新的參考概率 值。
[0071] 通過馬爾科夫聲學(xué)模型來判斷第一識別子結(jié)果為新詞的首個詞素為本領(lǐng)域普通 技術(shù)人員所熟知的技術(shù),在此不做寶述。
[0072] 預(yù)設(shè)的插入懲罰概率值可根據(jù)需求設(shè)定,例如在噪聲較大的環(huán)境,可提供為負(fù)值 得預(yù)設(shè)的插入懲罰概率值,第一識別子結(jié)果的參考概率值加上負(fù)的插入懲罰概率值,使得 識別出新詞的概率降低,降低出現(xiàn)由于噪聲所產(chǎn)生的新詞的概率;而在噪聲較小的環(huán)境,可 提供為正值得預(yù)設(shè)的插入懲罰概率值,第一識別子結(jié)果的參考概率值加上正的插入懲罰概 率值,使得識別出新詞的概率增加。
[0073] 通過設(shè)定插入懲罰概率值,降低環(huán)境噪聲對語音識別的影響,提高語音識別的準(zhǔn) 確性。
[0074] 參圖2所示,本發(fā)明實施例中,步驟S30具體包括如下步驟。
[0075] S31、將各第一語音特征向量與馬爾科夫聲學(xué)模型做比對,得到每個第一語音特征 向量的第一識別子結(jié)果和每個第一識別子結(jié)果的參考概率值。
[0076] 在將各個第一語音特征向量與馬爾科夫聲學(xué)模型比對后,每個第一語音特征向量 均能夠得到至少一個可能的第一識別子結(jié)果,馬爾科夫聲學(xué)模型對于每個可能的第一識別 子結(jié)果均貼有參考概率值,運些參考概率值用于體現(xiàn)馬爾科夫聲學(xué)模型所輸出的第一識別 子結(jié)果是真實識別結(jié)果的概率。
[0077] S32、獲取各第一語音特征向量的第一識別子結(jié)果的數(shù)量上的收斂時刻,得到位于 收斂時刻的第一語音特征向量,作為第一收斂特征向量。
[007引仍W第一數(shù)量等于8為例,第一語音數(shù)據(jù)包被轉(zhuǎn)換為8個第一語音特征向量;在將 8個第一語音特征向量與馬爾科夫聲學(xué)模型比對后,得到每個第一語音特征向量的第一識 別子結(jié)果的數(shù)量如表1所示,其中,隨著第一語音特征向量序號的增加,第一語音特征向量 在第一語音數(shù)據(jù)包的時刻越晚。
[00791 陽080] 衷i
[0081] 參表1,序號為4和7的第一語音特征向量在數(shù)量上收斂,序號為4和7的第一語 音特征向量為第一收斂特征向量,其所在的時刻即為前述收斂時刻;位于第一收斂特征向 量中第一識別子結(jié)果的數(shù)量小于前一、后一第一語音特征向量中第一識別子結(jié)果的數(shù)量。
[0082] 其中,在第一數(shù)量較大時,可通過對第一識別子結(jié)果的數(shù)量所構(gòu)成的數(shù)列進行多 項式擬合,并對擬合后多項式進行求導(dǎo),W求導(dǎo)后的波谷值所在時刻來得到前述收斂時刻。
[0083] 本發(fā)明實施例中,在獲取第一語音特征向量的第一識別子結(jié)果的數(shù)量上的收斂時 刻之前,語音識別方法還包括:僅保留每個第一語音特征向量中參考概率值大于預(yù)設(shè)概率 闊值的第一識別子結(jié)果。
[0084] 通過預(yù)設(shè)概率闊值對第一語音特征中第一識別子結(jié)果的數(shù)量進行限縮,降低確定 收斂時刻所需運算量,提高確定第一收斂特征向量的效率。
[00化]S33、獲取最晚收斂時刻上的第一收斂特征向量中參考概率值最大的第一識別子 結(jié)果。
[0086] 仍參表1,序號為4和7上的第一收斂特征向量,最晚收斂時刻即為序號7所對應(yīng) 時刻,獲得序號7上的第一收斂特征向量中1988個第一識別子結(jié)果中參考概率值最大的一 個。
[0087] 由于特征向量的識別精確度與識別子結(jié)果的數(shù)量相關(guān),識別子結(jié)果的數(shù)量越少, 則特征向量的識別精確度越高;顯然可得,相對于其他序號上的語音特征向量的識別子結(jié) 果,序號為4和7上第一收斂特征向量中參考概率值最大的第一識別子結(jié)果的識別精確度 更局。
[0088] 最晚收斂時刻上的第一收斂特征向量,相對于其他第一收斂特征向量更接近第二 語音數(shù)據(jù)包,基于最晚收斂時刻上的第一收斂特征向量得到的第一語音語速與第二語音數(shù) 據(jù)包的第二語音語速更接近。
[0089] S34、根據(jù)馬爾科夫聲學(xué)模型對參考概率值最大的第一識別子結(jié)果做回溯,得到第 一最優(yōu)識別路徑。
[0090] 本發(fā)明實施例中,W參考概率值最大的第一識別子結(jié)果為基準(zhǔn),根據(jù)馬爾科夫聲 學(xué)模型得到跳轉(zhuǎn)至該第一識別子結(jié)果的參考概率值最大的前一第一語音特征向量的第一 識別子結(jié)果。
[0091] 仍然W參考概率值最大的第一識別子結(jié)果為基準(zhǔn),根據(jù)馬爾科夫聲學(xué)模型得到該 第一識別子結(jié)果跳轉(zhuǎn)的參考概率值最大的后一第一語音特征向量的第一識別子結(jié)果。
[0092] 重復(fù)前述操作,直到已經(jīng)得到所有第一語音特征向量的第一識別子結(jié)果,再將得 到的所有第一語音特征向量的第一識別子結(jié)果做匯總,作為第一最優(yōu)識別路徑,該第一最 優(yōu)識別路徑中每個第一語音特征向量僅有一個第一識別子結(jié)果。
[0093] S35、獲取第一最優(yōu)識別路徑的跳轉(zhuǎn)概率。
[0094] S36、根據(jù)第一最優(yōu)識別路徑的跳轉(zhuǎn)概率和第一語音數(shù)據(jù)包的時長得到第一語音 語速。
[00巧]本發(fā)明實施例中,第一最優(yōu)識別路徑包括8個第一識別子結(jié)果,若通過比對第一 識別子結(jié)果發(fā)現(xiàn)其中發(fā)生了 2次跳轉(zhuǎn),6次自跳,則可出跳轉(zhuǎn)概率為25%,而第一語音數(shù)據(jù) 包的時長為0. 5S,基于該跳轉(zhuǎn)概率和時長則可得出第一語音語速。
[0096] 參圖3所示,本發(fā)明實施例中,步驟S60之前,語音識別方法還包括如下步驟。
[0097] S71、獲取第一最優(yōu)識別路徑中的跳轉(zhuǎn)概率;
[0098] S72、W第一最優(yōu)識別路徑中的跳轉(zhuǎn)概率作為馬爾科夫聲學(xué)模型的跳轉(zhuǎn)概率。
[0099] 由于第一最優(yōu)識別路徑中跳轉(zhuǎn)概率與第二語音數(shù)據(jù)包中跳轉(zhuǎn)概率接近,通過跳轉(zhuǎn) 概率作為馬爾科夫聲學(xué)模型的跳轉(zhuǎn)概率,使得馬爾科夫聲學(xué)模型與第二語音數(shù)據(jù)包的跳轉(zhuǎn) 概率更接近,而跳轉(zhuǎn)概率體現(xiàn)了語速水平,使得第二語音數(shù)據(jù)包和馬爾科夫聲學(xué)模型的語 速更接近,從而提高語音識別的精確性。
[0100] S73、根據(jù)預(yù)設(shè)S型曲線函數(shù)對馬爾科夫聲學(xué)模型的跳轉(zhuǎn)概率進行修正。 陽101] 通過預(yù)設(shè)S型曲線函數(shù)能夠?qū)Ω潞篑R爾科夫聲學(xué)模型的跳轉(zhuǎn)概率進行修正,避 免該馬爾科夫聲學(xué)模型的跳轉(zhuǎn)概率出現(xiàn)極值,導(dǎo)致跳轉(zhuǎn)異常。 陽102] 圖4為本發(fā)明實施例提供的語音識別裝置的機構(gòu)示意圖,本發(fā)明實施例所提供的 語音識別裝置基于W上語音識別方法,故該裝置的具體細(xì)節(jié)可參照W上識別方法,本文不 再予W寶述。 陽103] 前述語音識別裝置,用于解決現(xiàn)有技術(shù)中語音識別效率較低的技術(shù)問題,具體包 括:
[0104] 語音數(shù)據(jù)包提取模塊10,獲取語音信號,在語音信號中提取多個語音數(shù)據(jù)包,多個 語音數(shù)據(jù)包包括在時間上連續(xù)的第一語音數(shù)據(jù)包和第二語音數(shù)據(jù)包;
[01化]第一特征向量提取模塊20,從第一語音數(shù)據(jù)包中提取第一數(shù)量的第一語音特征向 量;
[0106] 第一語音語速確定模塊30,根據(jù)各第一語音特征向量與預(yù)設(shè)的馬爾科夫聲學(xué)模 型,確定第一語音數(shù)據(jù)包的第一語音語速; 陽107] 第二數(shù)量確定模塊40,根據(jù)所述第一語音語速與標(biāo)準(zhǔn)語音語速,確定第二數(shù)量;
[0108] 第二特征向量提取模塊50,從所述第二語音數(shù)據(jù)包提取第二數(shù)量的第二語音特征 向量;
[0109] 第二識別結(jié)果確定模塊60,根據(jù)第二語音特征向量與預(yù)設(shè)馬爾科夫聲學(xué)模型,確 定第二語音數(shù)據(jù)包的第二識別結(jié)果。
[0110] 本發(fā)明實施例提供的語音識別裝置,通過在語音信號中提取多個語音數(shù)據(jù)包,對 每個語音數(shù)據(jù)包分別進行語音識別,并根據(jù)前一語音數(shù)據(jù)包的語速來生成后一語音數(shù)據(jù)包 的語音識別過程所需提取語音特征向量的數(shù)量,無需獲取完整的語音信號即可實現(xiàn)根據(jù)語 音信號的語速變化來調(diào)整語音識別進程,使得語音識別效率和準(zhǔn)確性均達到很高水準(zhǔn)。 陽111] 本發(fā)明實施例中可W通過硬件處理器化ardware processor)來實現(xiàn)上述相關(guān)功 能模塊。
[0112] 本發(fā)明實施例中,第一語音語速確定模塊30具體用于:
[0113] 將各第一語音特征向量與預(yù)設(shè)馬爾科夫聲學(xué)模型做比對,得到每個第一語音特征 向量的第一識別子結(jié)果和每個第一識別子結(jié)果的參考概率值;
[0114] 獲取各第一語音特征向量的第一識別子結(jié)果的數(shù)量上的收斂時刻,得到位于收斂 時刻的第一語音特征向量,作為第一收斂特征向量;
[0115] 獲取最晚收斂時刻上的第一收斂特征向量中參考概率值最大的第一識別子結(jié) 果;
[0116] 根據(jù)馬爾科夫聲學(xué)模型對參考概率值最大的第一識別子結(jié)果做回溯,得到第一最 優(yōu)識別路徑;
[0117] 獲取第一最優(yōu)識別路徑的跳轉(zhuǎn)概率;
[0118] 根據(jù)第一最優(yōu)識別路徑的跳轉(zhuǎn)概率和第一語音數(shù)據(jù)包的時長得到第一語音語速。
[0119] 本發(fā)明實施例中,第一收斂特征向量中第一識別子結(jié)果的數(shù)量小于前一、后一第 一語音特征向量中第一識別子結(jié)果的數(shù)量。
[0120] 本發(fā)明實施例中,語音識別裝置還包括: 陽121] 第一子結(jié)果過濾模塊,僅保留每個第一語音特征向量中參考概率值大于預(yù)設(shè)概率 闊值的第一識別子結(jié)果。
[0122] 本發(fā)明實施例中,第二數(shù)量確定模塊40具體用于:
[0123] 將第一語音語速和標(biāo)準(zhǔn)語音語速的比值與所述第一數(shù)量作乘積的結(jié)果,作為第二 數(shù)量。
[0124] 本發(fā)明實施例中,第二特征向量提取模塊50具體用于:
[01巧]根據(jù)所述第二數(shù)量和第一數(shù)量調(diào)整所述第一帖移,得到第二帖移;
[0126] 根據(jù)所述第二帖移,從所述第二語音數(shù)據(jù)包提取第二語音特征向量,W使得所述 第二語音特征向量的數(shù)量為第二數(shù)量。
[0127] 本發(fā)明實施例中,第二特征向量提取模塊50具體用于:
[0128] 從所述第二語音數(shù)據(jù)包中提取第一數(shù)量的第二語音特征向量;
[0129] 在相鄰的第二語音特征向量之間插入特定數(shù)量的第二語音特征向量,將所述第二 語音特征向量的數(shù)量調(diào)整為第二數(shù)量。
[0130] 本發(fā)明實施例中,語音識別裝置還包括模型跳轉(zhuǎn)概率更新模塊,具體用于: 陽131] 獲取第一最優(yōu)識別路徑中的跳轉(zhuǎn)概率; 陽132] W第一最優(yōu)識別路徑中的跳轉(zhuǎn)概率作為馬爾科夫聲學(xué)模型的跳轉(zhuǎn)概率。
[0133] 本發(fā)明實施例中,模型跳轉(zhuǎn)概率更新模塊還用于:根據(jù)預(yù)設(shè)S型曲線函數(shù)對馬爾 科夫聲學(xué)模型的跳轉(zhuǎn)概率進行修正。
[0134] 本發(fā)明實施例中,語音識別裝置還包括插入懲罰模塊,具體用于:
[0135] 在有第一識別子結(jié)果為新詞的首個詞素時,在該第一識別子結(jié)果的參考概率值上 更新預(yù)設(shè)插入懲罰概率值,作為新的參考概率值。 陽136] W上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可 W是或者也可W不是物理上分開的,作為單元顯示的部件可W是或者也可W不是物理單 元,即可W位于一個地方,或者也可W分布到多個網(wǎng)絡(luò)單元上??蒞根據(jù)實際的需要選擇其 中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性 的勞動的情況下,即可W理解并實施。
[0137] 通過W上的實施方式的描述,本領(lǐng)域的技術(shù)人員可W清楚地了解到各實施方式可 借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當(dāng)然也可W通過硬件?;谶\樣的理解,上 述技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可軟件產(chǎn)品的形式體現(xiàn)出來,該 計算機軟件產(chǎn)品可W存儲在計算機可讀存儲介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指 令用W使得一臺計算機設(shè)備(可W是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行各個實施 例或者實施例的某些部分所述的方法。
[0138] 最后應(yīng)說明的是:W上實施例僅用W說明本發(fā)明的技術(shù)方案,而非對其限制;盡 管參照前述實施例對本發(fā)明進行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然 可W對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分技術(shù)特征進行等同替 換;而運些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精 神和范圍。
【主權(quán)項】
1. 一種語音識別方法,其特征在于,包括: 獲取語音信號,在所述語音信號中提取多個語音數(shù)據(jù)包,所述多個語音數(shù)據(jù)包內(nèi)包括 在時間上連續(xù)的第一語音數(shù)據(jù)包和第二語音數(shù)據(jù)包; 從所述第一語音數(shù)據(jù)包中提取第一數(shù)量的第一語音特征向量; 根據(jù)各第一語音特征向量與預(yù)設(shè)的馬爾科夫聲學(xué)模型,確定所述第一語音數(shù)據(jù)包的第 一語音語速; 根據(jù)所述第一語音語速與標(biāo)準(zhǔn)語音語速,確定第二數(shù)量; 從所述第二語音數(shù)據(jù)包提取第二數(shù)量的第二語音特征向量; 根據(jù)所述第二語音特征向量與預(yù)設(shè)馬爾科夫聲學(xué)模型,確定第二語音數(shù)據(jù)包的第二識 別結(jié)果。2. 根據(jù)權(quán)利要求1所述的語音識別方法,其特征在于,根據(jù)各第一語音特征向量與預(yù) 設(shè)的馬爾科夫聲學(xué)模型,確定所述第一語音數(shù)據(jù)包的第一語音語速,具體包括: 將各第一語音特征向量與預(yù)設(shè)馬爾科夫聲學(xué)模型做比對,得到每個第一語音特征向量 的第一識別子結(jié)果和每個第一識別子結(jié)果的參考概率值; 獲取各第一語音特征向量的第一識別子結(jié)果的數(shù)量上的收斂時刻,得到位于所述收斂 時刻的第一語音特征向量,作為第一收斂特征向量; 獲取最晚收斂時刻上的第一收斂特征向量中參考概率值最大的第一識別子結(jié)果; 根據(jù)馬爾科夫聲學(xué)模型對所述參考概率值最大的第一識別子結(jié)果做回溯,得到第一最 優(yōu)識別路徑; 獲取所述第一最優(yōu)識別路徑的跳轉(zhuǎn)概率; 根據(jù)所述第一最優(yōu)識別路徑的跳轉(zhuǎn)概率和所述第一語音數(shù)據(jù)包的時長得到第一語音 語速。3. 根據(jù)權(quán)利要求2所述的語音識別方法,其特征在于,所述第一收斂特征向量中第一 識別子結(jié)果的數(shù)量小于前一、后一第一語音特征向量中第一識別子結(jié)果的數(shù)量。4. 根據(jù)權(quán)利要求3所述的語音識別方法,其特征在于,獲取所述第一語音特征向量的 第一識別子結(jié)果的數(shù)量上的收斂時刻之前,所述語音識別方法還包括: 僅保留每個第一語音特征向量中參考概率值大于預(yù)設(shè)概率閾值的第一識別子結(jié)果。5. 根據(jù)權(quán)利要求2述的語音識別方法,其特征在于,根據(jù)馬爾科夫聲學(xué)模型對所述參 考概率值最大的第一識別子結(jié)果做回溯,得到第一最優(yōu)識別路徑,具體包括: 以所述參考概率值最大的第一識別子結(jié)果為基準(zhǔn),根據(jù)馬爾科夫聲學(xué)模型得到跳轉(zhuǎn)至 所述第一識別子結(jié)果的參考概率值最大的前一第一語音特征向量的第一識別子結(jié)果; 以第一識別子結(jié)果為基準(zhǔn),根據(jù)馬爾科夫聲學(xué)模型得到所述第一識別子結(jié)果跳轉(zhuǎn)的參 考概率值最大的后一第一語音特征向量的第一識別子結(jié)果; 判斷是否已經(jīng)得到所有第一語音特征向量的第一識別子結(jié)果; 將得到所有第一語音特征向量的第一識別子結(jié)果做匯總,作為第一最優(yōu)識別路徑。6. 根據(jù)權(quán)利要求1所述的語音識別方法,其特征在于,根據(jù)所述第一語音語速與標(biāo)準(zhǔn) 語音語速,確定第二數(shù)量,具體包括: 將第一語音語速和標(biāo)準(zhǔn)語音語速的比值與所述第一數(shù)量作乘積的結(jié)果,作為第二數(shù) 量。7. 根據(jù)權(quán)利要求1所述的語音識別方法,其特征在于,從所述第二語音數(shù)據(jù)包提取第 二數(shù)量的第二語音特征向量,具體包括: 獲取相鄰第一語音特征向量之間的第一幀移; 根據(jù)所述第二數(shù)量和第一數(shù)量調(diào)整所述第一幀移,得到第二幀移; 根據(jù)所述第二幀移,從所述第二語音數(shù)據(jù)包提取第二語音特征向量,以使得所述第二 語音特征向量的數(shù)量為第二數(shù)量。8. 根據(jù)權(quán)利要求1所述的語音識別方法,其特征在于,從所述第二語音數(shù)據(jù)包提取第 二數(shù)量的第二語音特征向量,具體包括: 從所述第二語音數(shù)據(jù)包中提取第一數(shù)量的第二語音特征向量; 在相鄰的第二語音特征向量之間提取特定數(shù)量的第二語音特征向量,將所述第二語音 特征向量的數(shù)量調(diào)整為第二數(shù)量。9. 根據(jù)權(quán)利要求1所述的語音識別方法,其特征在于,將所述第二語音特征向量與預(yù) 設(shè)馬爾科夫聲學(xué)模型做比對,得到第二語音數(shù)據(jù)包的第二識別結(jié)果之前,所述語音識別方 法還包括: 獲取所述第一最優(yōu)識別路徑中的跳轉(zhuǎn)概率; 以所述第一最優(yōu)識別路徑中的跳轉(zhuǎn)概率作為馬爾科夫聲學(xué)模型的跳轉(zhuǎn)概率。10. 根據(jù)權(quán)利要求9所述的語音識別方法,其特征在于,根據(jù)所述第一最優(yōu)識別路徑中 第一識別子結(jié)果的跳轉(zhuǎn)概率來調(diào)整馬爾科夫聲學(xué)模型的跳轉(zhuǎn)概率之后,所述語音識別方法 還包括: 根據(jù)預(yù)設(shè)S型曲線函數(shù)對所述馬爾科夫聲學(xué)模型的跳轉(zhuǎn)概率進行修正。11. 根據(jù)權(quán)利要求1所述的語音識別方法,其特征在于,所述語音識別方法還包括: 在有第一識別子結(jié)果為新詞的首個詞素時,在所述第一識別子結(jié)果的參考概率值上更 新預(yù)設(shè)的插入懲罰概率值,作為新的參考概率值。12. -種語音識別裝置,其特征在于,所述語音識別裝置包括: 語音數(shù)據(jù)包提取模塊,獲取語音信號,在所述語音信號中提取多個語音數(shù)據(jù)包,所述多 個語音數(shù)據(jù)包中包括在時間上連續(xù)的第一語音數(shù)據(jù)包和第二語音數(shù)據(jù)包; 第一特征向量提取模塊,從所述第一語音數(shù)據(jù)包中提取第一數(shù)量的第一語音特征向 量; 第一語音語速確定模塊,根據(jù)各第一語音特征向量與預(yù)設(shè)的馬爾科夫聲學(xué)模型,確定 所述第一語音數(shù)據(jù)包的第一語音語速; 調(diào)速參數(shù)確定模塊,根據(jù)所述第一語音語速與標(biāo)準(zhǔn)語音語速,確定調(diào)速參數(shù); 第二特征向量提取模塊,根據(jù)所述調(diào)速參數(shù),從所述第二語音數(shù)據(jù)包提取第二語音特 征向量; 第二識別結(jié)果確定模塊,根據(jù)所述第二語音特征向量與預(yù)設(shè)馬爾科夫聲學(xué)模型,確定 第二語音數(shù)據(jù)包的第二識別結(jié)果。13. 根據(jù)權(quán)利要求12所述的語音識別裝置,其特征在于,第一語音語速確定模塊具體 用于: 將各第一語音特征向量與預(yù)設(shè)馬爾科夫聲學(xué)模型做比對,得到每個第一語音特征向量 的第一識別子結(jié)果和每個第一識別子結(jié)果的參考概率值; 獲取各第一語音特征向量的第一識別子結(jié)果的數(shù)量上的收斂時刻,得到位于所述收斂 時刻的第一語音特征向量,作為第一收斂特征向量; 獲取最晚收斂時刻上的第一收斂特征向量中參考概率值最大的第一識別子結(jié)果; 根據(jù)馬爾科夫聲學(xué)模型對所述參考概率值最大的第一識別子結(jié)果做回溯,得到第一最 優(yōu)識別路徑; 獲取所述第一最優(yōu)識別路徑的跳轉(zhuǎn)概率; 根據(jù)所述第一最優(yōu)識別路徑的跳轉(zhuǎn)概率和所述第一語音數(shù)據(jù)包的時長得到第一語音 語速。14. 根據(jù)權(quán)利要求12所述的語音識別裝置,其特征在于,第二數(shù)量確定模塊具體用于: 將第一語音語速和標(biāo)準(zhǔn)語音語速的比值與所述第一數(shù)量作乘積的結(jié)果,作為第二數(shù) 量。15. 根據(jù)權(quán)利要求12所述的語音識別裝置,其特征在于,第二特征向量提取模塊具體 用于: 根據(jù)所述第二數(shù)量和第一數(shù)量調(diào)整所述第一幀移,得到第二幀移; 根據(jù)所述第二幀移,從所述第二語音數(shù)據(jù)包提取第二語音特征向量,以使得所述第二 語音特征向量的數(shù)量為第二數(shù)量。16. 根據(jù)權(quán)利要求12所述的語音識別裝置,其特征在于,第二特征向量提取模塊具體 用于: 從所述第二語音數(shù)據(jù)包中提取第一數(shù)量的第二語音特征向量; 在相鄰的第二語音特征向量之間插入特定數(shù)量的第二語音特征向量,將所述第二語音 特征向量的數(shù)量調(diào)整為第二數(shù)量。17. 根據(jù)權(quán)利要求12所述的語音識別裝置,其特征在于,語音識別裝置還包括插入懲 罰模塊,具體用于: 在有第一識別子結(jié)果為新詞的首個詞素時,在所述第一識別子結(jié)果的參考概率值上更 新預(yù)設(shè)的插入懲罰概率值,作為新的參考概率值。
【文檔編號】G10L15/14GK105989839SQ201510298789
【公開日】2016年10月5日
【申請日】2015年6月3日
【發(fā)明人】王育軍
【申請人】樂視致新電子科技(天津)有限公司