用于語(yǔ)音識(shí)別的模型訓(xùn)練及應(yīng)用方法、設(shè)備和存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：39703346發(fā)布日期：2024-10-22 12:47閱讀：4來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

用于語(yǔ)音識(shí)別的模型訓(xùn)練及應(yīng)用方法、設(shè)備和存儲(chǔ)介質(zhì)與流程

本技術(shù)涉及語(yǔ)音識(shí)別，尤其涉及一種用于語(yǔ)音識(shí)別的模型訓(xùn)練及應(yīng)用方法、設(shè)備和存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、隨著科學(xué)技術(shù)的飛速發(fā)展，基于語(yǔ)音識(shí)別技術(shù)的相關(guān)服務(wù)已經(jīng)被廣泛地應(yīng)用在人們的日常生活和工作中，如終端智能ai助手、智能音箱、車載系統(tǒng)等。

2、相關(guān)技術(shù)中的語(yǔ)音識(shí)別模型，大部分是基于語(yǔ)音數(shù)據(jù)構(gòu)建的。當(dāng)獲取到用戶的語(yǔ)音數(shù)據(jù)時(shí)，則可以識(shí)別出語(yǔ)音數(shù)據(jù)所對(duì)應(yīng)的文本內(nèi)容。

3、然而，當(dāng)語(yǔ)音數(shù)據(jù)不準(zhǔn)確或者噪聲較大時(shí)，基于相關(guān)技術(shù)中的語(yǔ)音識(shí)別模型識(shí)別語(yǔ)音數(shù)據(jù)，難以得到準(zhǔn)確的文本識(shí)別結(jié)果。因此，語(yǔ)音識(shí)別的準(zhǔn)確性較低。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本技術(shù)實(shí)施例提供了一種用于語(yǔ)音識(shí)別的模型訓(xùn)練及應(yīng)用方法、設(shè)備和存儲(chǔ)介質(zhì)，旨在提高語(yǔ)音識(shí)別的準(zhǔn)確性。

2、本技術(shù)實(shí)施例提供了一種用于語(yǔ)音識(shí)別的模型訓(xùn)練方法，所述方法包括：

3、獲取訓(xùn)練樣本集，所述訓(xùn)練樣本集包括多組訓(xùn)練樣本，每組所述訓(xùn)練樣本包括成對(duì)的語(yǔ)音數(shù)據(jù)和文本數(shù)據(jù)，所述文本數(shù)據(jù)與所述語(yǔ)音數(shù)據(jù)的內(nèi)容相同；

4、針對(duì)各組所述訓(xùn)練樣本，對(duì)每組所述訓(xùn)練樣本中所述語(yǔ)音數(shù)據(jù)的語(yǔ)音嵌入特征和所述文本數(shù)據(jù)的文本語(yǔ)義特征進(jìn)行特征融合，獲得各組所述訓(xùn)練樣本的融合特征；

5、基于各組所述訓(xùn)練樣本的融合特征和對(duì)應(yīng)的所述文本數(shù)據(jù)，確定語(yǔ)音識(shí)別模型的各損失值；

6、基于各所述損失值和設(shè)定的損失函數(shù)的目標(biāo)值，對(duì)語(yǔ)音識(shí)別模型的參數(shù)進(jìn)行調(diào)整，直至獲得訓(xùn)練好的語(yǔ)音識(shí)別模型。

7、上述方案中，所述基于各組所述訓(xùn)練樣本的融合特征和對(duì)應(yīng)的所述文本數(shù)據(jù)，確定語(yǔ)音識(shí)別模型的各損失值，包括：

8、對(duì)各組所述訓(xùn)練樣本的融合特征進(jìn)行解碼，獲得各組所述訓(xùn)練樣本對(duì)應(yīng)的識(shí)別文本數(shù)據(jù)；

9、根據(jù)各組所述識(shí)別文本數(shù)據(jù)和對(duì)應(yīng)的所述文本數(shù)據(jù)，確定各所述語(yǔ)音識(shí)別模型的損失值。

10、上述方案中，所述針對(duì)各組所述訓(xùn)練樣本，對(duì)每組所述訓(xùn)練樣本中所述語(yǔ)音數(shù)據(jù)的語(yǔ)音嵌入特征和所述文本數(shù)據(jù)的文本語(yǔ)義特征進(jìn)行特征融合，獲得各組所述訓(xùn)練樣本的融合特征，包括：

11、針對(duì)各組所述訓(xùn)練樣本，基于每組所述訓(xùn)練樣本中所述語(yǔ)音數(shù)據(jù)的語(yǔ)音嵌入特征，和對(duì)應(yīng)文本數(shù)據(jù)的文本語(yǔ)義特征，獲得各組所述訓(xùn)練樣本的注意力權(quán)重矩陣；

12、基于各組所述訓(xùn)練樣本的注意力權(quán)重矩陣和各組所述訓(xùn)練樣本中所述文本數(shù)據(jù)的文本語(yǔ)義特征，確定各組所述訓(xùn)練樣本的融合特征。

13、上述方案中，所述針對(duì)各組所述訓(xùn)練樣本，基于每組所述訓(xùn)練樣本中所述語(yǔ)音數(shù)據(jù)的語(yǔ)音嵌入特征，和對(duì)應(yīng)文本數(shù)據(jù)的文本語(yǔ)義特征，獲得各組所述訓(xùn)練樣本的注意力權(quán)重矩陣，包括：

14、基于各組所述訓(xùn)練樣本中所述語(yǔ)音數(shù)據(jù)的語(yǔ)音嵌入特征，獲得各組所述訓(xùn)練樣本的查詢query矩陣；

15、基于各組所述訓(xùn)練樣本中所述文本數(shù)據(jù)的文本語(yǔ)義特征，獲得各組所述訓(xùn)練樣本的鍵key矩陣；

16、針對(duì)各組所述訓(xùn)練樣本的query矩陣，計(jì)算每組所述訓(xùn)練樣本的query矩陣中各位置的向量，分別與該組所述訓(xùn)練樣本的key矩陣中所有位置的向量之間的相似度，獲得各組所述訓(xùn)練樣本的相似度矩陣；

17、對(duì)各組所述訓(xùn)練樣本的相似度矩陣進(jìn)行歸一化，獲得各組所述訓(xùn)練樣本的注意力權(quán)重矩陣，所述注意力權(quán)重矩陣表示所述query矩陣中每個(gè)位置的向量分別和對(duì)應(yīng)key矩陣中各個(gè)位置的向量之間的關(guān)聯(lián)程度。

18、上述方案中，所述針對(duì)各組所述訓(xùn)練樣本，對(duì)每組所述訓(xùn)練樣本中所述語(yǔ)音數(shù)據(jù)的語(yǔ)音嵌入特征和所述文本數(shù)據(jù)的文本語(yǔ)義特征進(jìn)行特征融合，獲得各組所述訓(xùn)練樣本的融合特征之前，所述方法還包括：

19、對(duì)各所述訓(xùn)練樣本中所述文本數(shù)據(jù)的詞向量進(jìn)行上采樣，獲得各采樣后的文本詞向量；其中，所述采樣后的文本詞向量與對(duì)應(yīng)的所述語(yǔ)音數(shù)據(jù)的聲學(xué)特征向量在維度上相同；

20、基于各所述采樣后的文本詞向量進(jìn)行文本編碼，獲得各所述文本數(shù)據(jù)對(duì)應(yīng)的文本語(yǔ)義特征。

21、上述方案中，所述基于各所述損失值和設(shè)定的損失函數(shù)的目標(biāo)值，對(duì)語(yǔ)音識(shí)別模型的參數(shù)進(jìn)行調(diào)整，直至獲得訓(xùn)練好的語(yǔ)音識(shí)別模型，包括：

22、基于各所述損失值和設(shè)定的損失函數(shù)的目標(biāo)值，對(duì)語(yǔ)音識(shí)別模型的參數(shù)進(jìn)行調(diào)整，直至獲得初步收斂的語(yǔ)音識(shí)別模型；

23、將各組所述訓(xùn)練樣本中的文本數(shù)據(jù)作為訓(xùn)練樣本，對(duì)所述初步收斂的語(yǔ)音識(shí)別模型的參數(shù)進(jìn)行調(diào)整，獲得所述訓(xùn)練好的語(yǔ)音識(shí)別模型。

24、本技術(shù)實(shí)施例還提供了一種語(yǔ)音識(shí)別方法，應(yīng)用于如上述任一方案中所述的方法訓(xùn)練得到的訓(xùn)練好的語(yǔ)音識(shí)別模型，所述方法包括：

25、獲取目標(biāo)語(yǔ)音數(shù)據(jù)；

26、將所述目標(biāo)語(yǔ)音數(shù)據(jù)輸入至所述訓(xùn)練好的語(yǔ)音識(shí)別模型中，得到所述目標(biāo)語(yǔ)音數(shù)據(jù)的文本識(shí)別結(jié)果。

27、本技術(shù)實(shí)施例還提供了一種用于語(yǔ)音識(shí)別的模型訓(xùn)練裝置，所述裝置包括：

28、訓(xùn)練樣本集獲取模塊，用于獲取訓(xùn)練樣本集，所述訓(xùn)練樣本集包括多組訓(xùn)練樣本，每組所述訓(xùn)練樣本包括成對(duì)的語(yǔ)音數(shù)據(jù)和文本數(shù)據(jù)，所述文本數(shù)據(jù)與所述語(yǔ)音數(shù)據(jù)的內(nèi)容相同；

29、融合特征獲取模塊，用于針對(duì)各組所述訓(xùn)練樣本，對(duì)每組所述訓(xùn)練樣本中所述語(yǔ)音數(shù)據(jù)的語(yǔ)音嵌入特征和所述文本數(shù)據(jù)的文本語(yǔ)義特征進(jìn)行特征融合，獲得各組所述訓(xùn)練樣本的融合特征；

30、損失值確定模塊，用于基于各組所述訓(xùn)練樣本的融合特征和對(duì)應(yīng)的所述文本數(shù)據(jù)，確定各語(yǔ)音識(shí)別模型的損失值；

31、參數(shù)更新模塊，用于基于各所述損失值和設(shè)定的目標(biāo)值，對(duì)所述語(yǔ)音識(shí)別模型的參數(shù)進(jìn)行調(diào)整，直至獲得訓(xùn)練好的語(yǔ)音識(shí)別模型。

32、本技術(shù)實(shí)施例還提供了一種語(yǔ)音識(shí)別裝置，所述裝置包括：

33、語(yǔ)音數(shù)據(jù)獲取模塊，用于獲取目標(biāo)語(yǔ)音數(shù)據(jù)；

34、識(shí)別結(jié)果生成模塊，用于將所述目標(biāo)語(yǔ)音數(shù)據(jù)輸入至如上述的模型訓(xùn)練裝置訓(xùn)練好的語(yǔ)音識(shí)別模型中，得到所述目標(biāo)語(yǔ)音數(shù)據(jù)的文本識(shí)別結(jié)果。

35、本技術(shù)實(shí)施例還提供了一種電子設(shè)備，包括：處理器和用于存儲(chǔ)能夠在處理器上運(yùn)行的計(jì)算機(jī)程序的存儲(chǔ)器，其中，

36、所述處理器，用于運(yùn)行計(jì)算機(jī)程序時(shí)，執(zhí)行上述各用于語(yǔ)音識(shí)別的模型訓(xùn)練方法和/或語(yǔ)音識(shí)別方法的步驟。

37、本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)，實(shí)現(xiàn)上述各用于語(yǔ)音識(shí)別的模型訓(xùn)練方法和/或語(yǔ)音識(shí)別方法的步驟。

38、本技術(shù)實(shí)施例提供的用于語(yǔ)音識(shí)別的模型訓(xùn)練及應(yīng)用方法、設(shè)備和存儲(chǔ)介質(zhì)，通過獲取訓(xùn)練樣本集，所述訓(xùn)練樣本集包括多組訓(xùn)練樣本，每組所述訓(xùn)練樣本包括成對(duì)的語(yǔ)音數(shù)據(jù)和文本數(shù)據(jù)，所述文本數(shù)據(jù)與所述語(yǔ)音數(shù)據(jù)的內(nèi)容相同；針對(duì)各組所述訓(xùn)練樣本，對(duì)每組所述訓(xùn)練樣本中所述語(yǔ)音數(shù)據(jù)的語(yǔ)音嵌入特征和所述文本數(shù)據(jù)的文本語(yǔ)義特征進(jìn)行特征融合，獲得各組所述訓(xùn)練樣本的融合特征；基于各組所述訓(xùn)練樣本的融合特征和對(duì)應(yīng)的所述文本數(shù)據(jù)，確定語(yǔ)音識(shí)別模型的各損失值；基于各所述損失值和設(shè)定的損失函數(shù)的目標(biāo)值，對(duì)語(yǔ)音識(shí)別模型的參數(shù)進(jìn)行調(diào)整，直至獲得訓(xùn)練好的語(yǔ)音識(shí)別模型。由于在語(yǔ)音識(shí)別模型的訓(xùn)練過程中，將語(yǔ)音數(shù)據(jù)和對(duì)應(yīng)的文本數(shù)據(jù)作為一組訓(xùn)練樣本，融合語(yǔ)音模態(tài)和文本模態(tài)這兩種模態(tài)信息對(duì)語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練，可使文本語(yǔ)義特征對(duì)音頻特征進(jìn)行加強(qiáng)，從而有利于提升語(yǔ)音識(shí)別模型的準(zhǔn)確性和魯棒性。例如，由于不再是僅采用語(yǔ)音數(shù)據(jù)這種單一模態(tài)的信息對(duì)語(yǔ)音識(shí)別模型，即使語(yǔ)音數(shù)據(jù)不準(zhǔn)確或噪聲比較大，文本模態(tài)仍可以發(fā)揮作用，保證語(yǔ)音數(shù)據(jù)能夠被準(zhǔn)確識(shí)別。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李慧慧,張世磊,侯雷靜
技術(shù)所有人：中國(guó)移動(dòng)通信有限公司研究院
我是此專利的發(fā)明人

上一篇：一種隧道排水裝置的制作方法
上一篇：一種裸銅線放線保護(hù)裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

用于語(yǔ)音識(shí)別的模型訓(xùn)練及應(yīng)用方法、設(shè)備和存儲(chǔ)介質(zhì)與流程

用于語(yǔ)音識(shí)別的模型訓(xùn)練及應(yīng)用方法、設(shè)備和存儲(chǔ)介質(zhì)與流程