日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

用于語(yǔ)音識(shí)別的模型訓(xùn)練及應(yīng)用方法、設(shè)備和存儲(chǔ)介質(zhì)與流程

文檔序號(hào):39703346發(fā)布日期:2024-10-22 12:47閱讀:4來(lái)源:國(guó)知局
用于語(yǔ)音識(shí)別的模型訓(xùn)練及應(yīng)用方法、設(shè)備和存儲(chǔ)介質(zhì)與流程

本技術(shù)涉及語(yǔ)音識(shí)別,尤其涉及一種用于語(yǔ)音識(shí)別的模型訓(xùn)練及應(yīng)用方法、設(shè)備和存儲(chǔ)介質(zhì)。


背景技術(shù):

1、隨著科學(xué)技術(shù)的飛速發(fā)展,基于語(yǔ)音識(shí)別技術(shù)的相關(guān)服務(wù)已經(jīng)被廣泛地應(yīng)用在人們的日常生活和工作中,如終端智能ai助手、智能音箱、車載系統(tǒng)等。

2、相關(guān)技術(shù)中的語(yǔ)音識(shí)別模型,大部分是基于語(yǔ)音數(shù)據(jù)構(gòu)建的。當(dāng)獲取到用戶的語(yǔ)音數(shù)據(jù)時(shí),則可以識(shí)別出語(yǔ)音數(shù)據(jù)所對(duì)應(yīng)的文本內(nèi)容。

3、然而,當(dāng)語(yǔ)音數(shù)據(jù)不準(zhǔn)確或者噪聲較大時(shí),基于相關(guān)技術(shù)中的語(yǔ)音識(shí)別模型識(shí)別語(yǔ)音數(shù)據(jù),難以得到準(zhǔn)確的文本識(shí)別結(jié)果。因此,語(yǔ)音識(shí)別的準(zhǔn)確性較低。


技術(shù)實(shí)現(xiàn)思路

1、有鑒于此,本技術(shù)實(shí)施例提供了一種用于語(yǔ)音識(shí)別的模型訓(xùn)練及應(yīng)用方法、設(shè)備和存儲(chǔ)介質(zhì),旨在提高語(yǔ)音識(shí)別的準(zhǔn)確性。

2、本技術(shù)實(shí)施例提供了一種用于語(yǔ)音識(shí)別的模型訓(xùn)練方法,所述方法包括:

3、獲取訓(xùn)練樣本集,所述訓(xùn)練樣本集包括多組訓(xùn)練樣本,每組所述訓(xùn)練樣本包括成對(duì)的語(yǔ)音數(shù)據(jù)和文本數(shù)據(jù),所述文本數(shù)據(jù)與所述語(yǔ)音數(shù)據(jù)的內(nèi)容相同;

4、針對(duì)各組所述訓(xùn)練樣本,對(duì)每組所述訓(xùn)練樣本中所述語(yǔ)音數(shù)據(jù)的語(yǔ)音嵌入特征和所述文本數(shù)據(jù)的文本語(yǔ)義特征進(jìn)行特征融合,獲得各組所述訓(xùn)練樣本的融合特征;

5、基于各組所述訓(xùn)練樣本的融合特征和對(duì)應(yīng)的所述文本數(shù)據(jù),確定語(yǔ)音識(shí)別模型的各損失值;

6、基于各所述損失值和設(shè)定的損失函數(shù)的目標(biāo)值,對(duì)語(yǔ)音識(shí)別模型的參數(shù)進(jìn)行調(diào)整,直至獲得訓(xùn)練好的語(yǔ)音識(shí)別模型。

7、上述方案中,所述基于各組所述訓(xùn)練樣本的融合特征和對(duì)應(yīng)的所述文本數(shù)據(jù),確定語(yǔ)音識(shí)別模型的各損失值,包括:

8、對(duì)各組所述訓(xùn)練樣本的融合特征進(jìn)行解碼,獲得各組所述訓(xùn)練樣本對(duì)應(yīng)的識(shí)別文本數(shù)據(jù);

9、根據(jù)各組所述識(shí)別文本數(shù)據(jù)和對(duì)應(yīng)的所述文本數(shù)據(jù),確定各所述語(yǔ)音識(shí)別模型的損失值。

10、上述方案中,所述針對(duì)各組所述訓(xùn)練樣本,對(duì)每組所述訓(xùn)練樣本中所述語(yǔ)音數(shù)據(jù)的語(yǔ)音嵌入特征和所述文本數(shù)據(jù)的文本語(yǔ)義特征進(jìn)行特征融合,獲得各組所述訓(xùn)練樣本的融合特征,包括:

11、針對(duì)各組所述訓(xùn)練樣本,基于每組所述訓(xùn)練樣本中所述語(yǔ)音數(shù)據(jù)的語(yǔ)音嵌入特征,和對(duì)應(yīng)文本數(shù)據(jù)的文本語(yǔ)義特征,獲得各組所述訓(xùn)練樣本的注意力權(quán)重矩陣;

12、基于各組所述訓(xùn)練樣本的注意力權(quán)重矩陣和各組所述訓(xùn)練樣本中所述文本數(shù)據(jù)的文本語(yǔ)義特征,確定各組所述訓(xùn)練樣本的融合特征。

13、上述方案中,所述針對(duì)各組所述訓(xùn)練樣本,基于每組所述訓(xùn)練樣本中所述語(yǔ)音數(shù)據(jù)的語(yǔ)音嵌入特征,和對(duì)應(yīng)文本數(shù)據(jù)的文本語(yǔ)義特征,獲得各組所述訓(xùn)練樣本的注意力權(quán)重矩陣,包括:

14、基于各組所述訓(xùn)練樣本中所述語(yǔ)音數(shù)據(jù)的語(yǔ)音嵌入特征,獲得各組所述訓(xùn)練樣本的查詢query矩陣;

15、基于各組所述訓(xùn)練樣本中所述文本數(shù)據(jù)的文本語(yǔ)義特征,獲得各組所述訓(xùn)練樣本的鍵key矩陣;

16、針對(duì)各組所述訓(xùn)練樣本的query矩陣,計(jì)算每組所述訓(xùn)練樣本的query矩陣中各位置的向量,分別與該組所述訓(xùn)練樣本的key矩陣中所有位置的向量之間的相似度,獲得各組所述訓(xùn)練樣本的相似度矩陣;

17、對(duì)各組所述訓(xùn)練樣本的相似度矩陣進(jìn)行歸一化,獲得各組所述訓(xùn)練樣本的注意力權(quán)重矩陣,所述注意力權(quán)重矩陣表示所述query矩陣中每個(gè)位置的向量分別和對(duì)應(yīng)key矩陣中各個(gè)位置的向量之間的關(guān)聯(lián)程度。

18、上述方案中,所述針對(duì)各組所述訓(xùn)練樣本,對(duì)每組所述訓(xùn)練樣本中所述語(yǔ)音數(shù)據(jù)的語(yǔ)音嵌入特征和所述文本數(shù)據(jù)的文本語(yǔ)義特征進(jìn)行特征融合,獲得各組所述訓(xùn)練樣本的融合特征之前,所述方法還包括:

19、對(duì)各所述訓(xùn)練樣本中所述文本數(shù)據(jù)的詞向量進(jìn)行上采樣,獲得各采樣后的文本詞向量;其中,所述采樣后的文本詞向量與對(duì)應(yīng)的所述語(yǔ)音數(shù)據(jù)的聲學(xué)特征向量在維度上相同;

20、基于各所述采樣后的文本詞向量進(jìn)行文本編碼,獲得各所述文本數(shù)據(jù)對(duì)應(yīng)的文本語(yǔ)義特征。

21、上述方案中,所述基于各所述損失值和設(shè)定的損失函數(shù)的目標(biāo)值,對(duì)語(yǔ)音識(shí)別模型的參數(shù)進(jìn)行調(diào)整,直至獲得訓(xùn)練好的語(yǔ)音識(shí)別模型,包括:

22、基于各所述損失值和設(shè)定的損失函數(shù)的目標(biāo)值,對(duì)語(yǔ)音識(shí)別模型的參數(shù)進(jìn)行調(diào)整,直至獲得初步收斂的語(yǔ)音識(shí)別模型;

23、將各組所述訓(xùn)練樣本中的文本數(shù)據(jù)作為訓(xùn)練樣本,對(duì)所述初步收斂的語(yǔ)音識(shí)別模型的參數(shù)進(jìn)行調(diào)整,獲得所述訓(xùn)練好的語(yǔ)音識(shí)別模型。

24、本技術(shù)實(shí)施例還提供了一種語(yǔ)音識(shí)別方法,應(yīng)用于如上述任一方案中所述的方法訓(xùn)練得到的訓(xùn)練好的語(yǔ)音識(shí)別模型,所述方法包括:

25、獲取目標(biāo)語(yǔ)音數(shù)據(jù);

26、將所述目標(biāo)語(yǔ)音數(shù)據(jù)輸入至所述訓(xùn)練好的語(yǔ)音識(shí)別模型中,得到所述目標(biāo)語(yǔ)音數(shù)據(jù)的文本識(shí)別結(jié)果。

27、本技術(shù)實(shí)施例還提供了一種用于語(yǔ)音識(shí)別的模型訓(xùn)練裝置,所述裝置包括:

28、訓(xùn)練樣本集獲取模塊,用于獲取訓(xùn)練樣本集,所述訓(xùn)練樣本集包括多組訓(xùn)練樣本,每組所述訓(xùn)練樣本包括成對(duì)的語(yǔ)音數(shù)據(jù)和文本數(shù)據(jù),所述文本數(shù)據(jù)與所述語(yǔ)音數(shù)據(jù)的內(nèi)容相同;

29、融合特征獲取模塊,用于針對(duì)各組所述訓(xùn)練樣本,對(duì)每組所述訓(xùn)練樣本中所述語(yǔ)音數(shù)據(jù)的語(yǔ)音嵌入特征和所述文本數(shù)據(jù)的文本語(yǔ)義特征進(jìn)行特征融合,獲得各組所述訓(xùn)練樣本的融合特征;

30、損失值確定模塊,用于基于各組所述訓(xùn)練樣本的融合特征和對(duì)應(yīng)的所述文本數(shù)據(jù),確定各語(yǔ)音識(shí)別模型的損失值;

31、參數(shù)更新模塊,用于基于各所述損失值和設(shè)定的目標(biāo)值,對(duì)所述語(yǔ)音識(shí)別模型的參數(shù)進(jìn)行調(diào)整,直至獲得訓(xùn)練好的語(yǔ)音識(shí)別模型。

32、本技術(shù)實(shí)施例還提供了一種語(yǔ)音識(shí)別裝置,所述裝置包括:

33、語(yǔ)音數(shù)據(jù)獲取模塊,用于獲取目標(biāo)語(yǔ)音數(shù)據(jù);

34、識(shí)別結(jié)果生成模塊,用于將所述目標(biāo)語(yǔ)音數(shù)據(jù)輸入至如上述的模型訓(xùn)練裝置訓(xùn)練好的語(yǔ)音識(shí)別模型中,得到所述目標(biāo)語(yǔ)音數(shù)據(jù)的文本識(shí)別結(jié)果。

35、本技術(shù)實(shí)施例還提供了一種電子設(shè)備,包括:處理器和用于存儲(chǔ)能夠在處理器上運(yùn)行的計(jì)算機(jī)程序的存儲(chǔ)器,其中,

36、所述處理器,用于運(yùn)行計(jì)算機(jī)程序時(shí),執(zhí)行上述各用于語(yǔ)音識(shí)別的模型訓(xùn)練方法和/或語(yǔ)音識(shí)別方法的步驟。

37、本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)存儲(chǔ)介質(zhì),所述計(jì)算機(jī)存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)上述各用于語(yǔ)音識(shí)別的模型訓(xùn)練方法和/或語(yǔ)音識(shí)別方法的步驟。

38、本技術(shù)實(shí)施例提供的用于語(yǔ)音識(shí)別的模型訓(xùn)練及應(yīng)用方法、設(shè)備和存儲(chǔ)介質(zhì),通過獲取訓(xùn)練樣本集,所述訓(xùn)練樣本集包括多組訓(xùn)練樣本,每組所述訓(xùn)練樣本包括成對(duì)的語(yǔ)音數(shù)據(jù)和文本數(shù)據(jù),所述文本數(shù)據(jù)與所述語(yǔ)音數(shù)據(jù)的內(nèi)容相同;針對(duì)各組所述訓(xùn)練樣本,對(duì)每組所述訓(xùn)練樣本中所述語(yǔ)音數(shù)據(jù)的語(yǔ)音嵌入特征和所述文本數(shù)據(jù)的文本語(yǔ)義特征進(jìn)行特征融合,獲得各組所述訓(xùn)練樣本的融合特征;基于各組所述訓(xùn)練樣本的融合特征和對(duì)應(yīng)的所述文本數(shù)據(jù),確定語(yǔ)音識(shí)別模型的各損失值;基于各所述損失值和設(shè)定的損失函數(shù)的目標(biāo)值,對(duì)語(yǔ)音識(shí)別模型的參數(shù)進(jìn)行調(diào)整,直至獲得訓(xùn)練好的語(yǔ)音識(shí)別模型。由于在語(yǔ)音識(shí)別模型的訓(xùn)練過程中,將語(yǔ)音數(shù)據(jù)和對(duì)應(yīng)的文本數(shù)據(jù)作為一組訓(xùn)練樣本,融合語(yǔ)音模態(tài)和文本模態(tài)這兩種模態(tài)信息對(duì)語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練,可使文本語(yǔ)義特征對(duì)音頻特征進(jìn)行加強(qiáng),從而有利于提升語(yǔ)音識(shí)別模型的準(zhǔn)確性和魯棒性。例如,由于不再是僅采用語(yǔ)音數(shù)據(jù)這種單一模態(tài)的信息對(duì)語(yǔ)音識(shí)別模型,即使語(yǔ)音數(shù)據(jù)不準(zhǔn)確或噪聲比較大,文本模態(tài)仍可以發(fā)揮作用,保證語(yǔ)音數(shù)據(jù)能夠被準(zhǔn)確識(shí)別。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1