語音關鍵詞的檢索方法、裝置、電子設備及存儲介質與流程

文檔序號：39708910發(fā)布日期：2024-10-22 12:53閱讀：4來源：國知局

本公開涉及計算機的，具體而言，涉及一種語音關鍵詞的檢索方法、裝置、電子設備及存儲介質。

背景技術：

1、隨著人工智能技術的發(fā)展，自動語音識別技術的應用越來越廣泛，例如，關鍵詞檢測技術。關鍵詞檢測技術是一種在一段音頻中，檢測出特定關鍵詞的技術。

2、現(xiàn)有技術方案，需要在對音頻進行關鍵詞進行檢索之前，為關鍵詞設置需要進行識別的相關內(nèi)容，例如，可以為關鍵詞建立數(shù)學模型，此時，可以通過該數(shù)學模型對音頻進行關鍵詞搜索；或者，可以為關鍵詞設置音頻樣例，通過神經(jīng)網(wǎng)絡模型對音頻樣例進行學習的方式，實現(xiàn)對音頻中關鍵詞進行搜索。然而，當存在新增關鍵詞時，需要增加對新增關鍵詞進行識別的相關內(nèi)容。該處理方式降低了針對開放關鍵詞詞匯的實用性，從而降低了關鍵詞的搜索效率。

技術實現(xiàn)思路

1、本公開實施例至少提供一種語音關鍵詞的檢索方法、裝置、電子設備及存儲介質。

2、第一方面，本公開實施例提供了一種語音關鍵詞的檢索方法，包括：

3、確定待檢索的目標音頻的頻域特征；

4、基于所述頻域特征確定所述目標音頻的音節(jié)后驗概率；其中，所述音節(jié)后驗概率用于指示所述目標音頻的各時刻的音節(jié)為預設音節(jié)的概率值；

5、基于所述音節(jié)后驗概率確定所述目標音頻的音節(jié)詞圖；其中，所述音節(jié)詞圖用于指示所述預設音節(jié)中與目標時刻滿足關聯(lián)要求的目標音節(jié)的后驗概率，所述目標時刻所對應的音節(jié)用于指示所述目標音頻的語義信息；

6、基于所述音節(jié)詞圖對所述目標音頻進行關鍵詞搜索，得到關鍵詞搜索結果。

7、一種可選的實施方式中，所述音節(jié)后驗概率包括多個概率向量；所述基于所述音節(jié)后驗概率確定所述目標音頻的音節(jié)詞圖，包括：

8、確定所述多個概率向量中的第一概率向量；其中，每個所述概率向量用于指示相對應時刻的音節(jié)為預設音節(jié)的概率值，所述第一概率向量用于指示對應時刻的音節(jié)為空音節(jié)的概率值滿足第一要求；

9、對所述第一概率向量的各概率進行過濾，得到第二概率向量；其中，所述第二概率向量中各概率值滿足第二要求；

10、基于所述第二概率向量和所述第二概率向量所對應的時刻，確定所述音節(jié)詞圖。

11、一種可選的實施方式中，所述確定所述多個概率向量中第一概率向量，包括：

12、確定每個所述概率向量的音節(jié)評分；其中，所述音節(jié)評分用于指示該概率向量所對應時刻的音節(jié)為空音節(jié)的概率；

13、將所述音節(jié)評分大于預設評分閾值的概率向量，確定為所述第一概率向量。

14、一種可選的實施方式中，所述確定每個所述概率向量的音節(jié)評分，包括：

15、基于每個所述概率向量中空音節(jié)的后驗概率，確定該概率向量的音節(jié)評分。

16、一種可選的實施方式中，所述基于所述音節(jié)詞圖對所述目標音頻進行關鍵詞搜索，得到關鍵詞搜索結果，包括：

17、獲取待搜索關鍵詞的音節(jié)序列；

18、確定所述音節(jié)序列在所述音節(jié)詞圖中的路徑搜索結果；

19、基于所述路徑搜索結果，確定所述關鍵詞搜索結果。

20、一種可選的實施方式中，所述確定所述音節(jié)序列在所述音節(jié)詞圖中的路徑搜索結果，包括：

21、根據(jù)所述音節(jié)序列的首個音節(jié)，確定所述音節(jié)詞圖中所述待搜索關鍵詞的備選搜索范圍；其中，所述備選搜索范圍用于指示搜索時刻的長度；

22、確定各個所述搜索時刻對應的目標搜索路徑；

23、基于最后搜索時刻對應的目標搜索路徑，確定所述路徑搜索結果。

24、一種可選的實施方式中，所述確定各個所述搜索時刻對應的目標搜索路徑，包括：

25、針對當前搜索時刻，獲取上一搜索時刻的上一目標搜索路徑；

26、基于所述上一目標搜索路徑，生成所述當前搜索時刻的新搜索路徑；

27、基于所述新搜索路徑確定所述當前搜索時刻的目標搜索路徑。

28、一種可選的實施方式中，所述基于所述新搜索路徑確定所述當前搜索時刻的目標搜索路徑，包括：

29、在確定所述新搜索路徑中存在已完成路徑的情況下，確定所述當前搜索時刻的最優(yōu)搜索路徑；

30、刪除所述新搜索路徑中路徑概率小于所述最優(yōu)搜索路徑的新搜索路徑，得到所述當前搜索時刻的目標搜索路徑。

31、一種可選的實施方式中，所述基于所述上一目標搜索路徑，生成所述當前搜索時刻的新搜索路徑，包括：

32、在所述上一目標搜索路徑中添加無效音節(jié)，得到所述新搜索路徑；其中，所述無效音節(jié)包括：靜音音節(jié)和/或空音節(jié)；

33、和/或

34、通過所述備選搜索范圍中所述當前搜索時刻所對應的第一音節(jié)替換所述上一目標搜索路徑的第二音節(jié)，得到所述新搜索路徑；其中，所述第二音節(jié)為所述上一目標搜索路徑中的最后一個音節(jié)，且所述第二音節(jié)為除靜音音節(jié)和空音節(jié)之外與所述第一音節(jié)相同的音節(jié)；

35、和/或

36、在所述上一目標搜索路徑中添加所述音節(jié)序列中與所述當前搜索時刻對應的第三音節(jié)，得到所述新搜索路徑。

37、一種可選的實施方式中，所述基于所述頻域特征確定所述目標音頻的音節(jié)后驗概率，包括：

38、通過共享編碼器對所述頻域特征進行編碼，得到編碼特征；

39、通過ctc語音識別網(wǎng)絡，對所述編碼特征進行處理，得到所述音節(jié)后驗概率。

40、一種可選的實施方式中，所述方法還包括通過以下方法對所述共享編碼器進行訓練：

41、獲取訓練音頻樣本，并提取所述訓練音頻樣本的樣本頻域特征；

42、通過共享編碼器對所述訓練音頻樣本的頻域特征進行編碼處理，得到樣本編碼特征；

43、將所述樣本編碼特征輸入至多種網(wǎng)絡模型中進行處理，并基于處理結果確定多種損失函數(shù)值；

44、基于所述多種損失函數(shù)值，對所述共享編碼器進行訓練。

45、一種可選的實施方式中，所述將所述樣本編碼特征輸入至多種網(wǎng)絡模型中進行處理，并基于處理結果確定多種損失函數(shù)值，包括：

46、基于預測網(wǎng)絡確定所述訓練音頻樣本的真實音節(jié)序列的編碼向量，并基于所述編碼向量和所述樣本編碼特征的融合結果，確定rnn-t損失值；

47、通過分類器網(wǎng)絡對所述樣本編碼特征進行處理，并根據(jù)處理結果計算交叉熵損失函數(shù)值；

48、通過ctc語音識別網(wǎng)絡對所述樣本編碼特征進行處理，并根據(jù)處理結果計算ctc損失函數(shù)值；

49、通過transformer網(wǎng)絡對所述樣本編碼特征進行處理，并根據(jù)處理結果計算kld損失函數(shù)值。

50、第二方面，本公開實施例還提供一種語音關鍵詞的檢索裝置，包括：

51、第一確定單元，用于確定待檢索的目標音頻的頻域特征；

52、第二確定單元，用于基于所述頻域特征確定所述目標音頻的音節(jié)后驗概率；其中，所述音節(jié)后驗概率用于指示所述目標音頻的各時刻的音節(jié)為預設音節(jié)的概率值；

53、第三確定單元，用于基于所述音節(jié)后驗概率確定所述目標音頻的音節(jié)詞圖；其中，所述音節(jié)詞圖用于指示所述預設音節(jié)中與目標時刻滿足關聯(lián)要求的目標音節(jié)的后驗概率，所述目標時刻所對應的音節(jié)用于指示所述目標音頻的語義信息；

54、關鍵詞搜索單元，用于基于所述音節(jié)詞圖對所述目標音頻進行關鍵詞搜索，得到關鍵詞搜索結果。

55、第三方面，本公開實施例還提供一種電子設備，包括：處理器、存儲器和總線，所述存儲器存儲有所述處理器可執(zhí)行的機器可讀指令，當電子設備運行時，所述處理器與所述存儲器之間通過總線通信，所述機器可讀指令被所述處理器執(zhí)行時執(zhí)行上述第一方面，或第一方面中任一種可能的實施方式中的步驟。

56、第四方面，本公開實施例還提供一種計算機可讀存儲介質，該計算機可讀存儲介質上存儲有計算機程序，該計算機程序被處理器運行時執(zhí)行上述第一方面，或第一方面中任一種可能的實施方式中的步驟。

57、在本技術實施例中，首先，可以獲取待檢索的目標音頻，并確定該目標音頻的頻域特征；然后，基于該頻域特征確定目標音頻的音節(jié)后驗概率，通過該音節(jié)后驗概率可以確定該目標音頻的各個時刻的音節(jié)為預設音節(jié)的概率值；之后，基于該音節(jié)后驗概率確定目標音頻的音節(jié)詞圖，通過該音節(jié)詞圖，可以確定預設音節(jié)中與各個時刻滿足關聯(lián)要求的目標音節(jié)的后驗概率，最后，根據(jù)該音節(jié)詞圖對目標音頻進行關鍵詞搜索，得到關鍵詞搜索結果。

58、上述實施方式中，通過基于目標音頻的音節(jié)后驗概率確定該目標音頻的音節(jié)詞圖，進而通過該音節(jié)詞圖對關鍵詞進行搜索的方式，不需要為新增關鍵詞增設相關識別內(nèi)容，例如，不需要增設該新增關鍵詞的數(shù)學模型和音頻樣例。通過該處理方式，可以自由定義需要進行搜索的關鍵詞，從而提高關鍵詞搜索的靈活性，同時簡化關鍵詞搜索的流程，進而提高關鍵詞搜索的效率。

59、為使本公開的上述目的、特征和優(yōu)點能更明顯易懂，下文特舉較佳實施例，并配合所附附圖，作詳細說明如下。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：張熙慶,張世磊,侯雷靜,劉敏,王楠楠,李慧慧
技術所有人：中國移動通信有限公司研究院
我是此專利的發(fā)明人

上一篇：一種混凝土石粉含量測定儀的制作方法
上一篇：一種車用尿素溶液濃度檢測裝置的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

語音關鍵詞的檢索方法、裝置、電子設備及存儲介質與流程

語音關鍵詞的檢索方法、裝置、電子設備及存儲介質與流程