本公開涉及計算機的,具體而言,涉及一種語音關鍵詞的檢索方法、裝置、電子設備及存儲介質。
背景技術:
1、隨著人工智能技術的發(fā)展,自動語音識別技術的應用越來越廣泛,例如,關鍵詞檢測技術。關鍵詞檢測技術是一種在一段音頻中,檢測出特定關鍵詞的技術。
2、現(xiàn)有技術方案,需要在對音頻進行關鍵詞進行檢索之前,為關鍵詞設置需要進行識別的相關內(nèi)容,例如,可以為關鍵詞建立數(shù)學模型,此時,可以通過該數(shù)學模型對音頻進行關鍵詞搜索;或者,可以為關鍵詞設置音頻樣例,通過神經(jīng)網(wǎng)絡模型對音頻樣例進行學習的方式,實現(xiàn)對音頻中關鍵詞進行搜索。然而,當存在新增關鍵詞時,需要增加對新增關鍵詞進行識別的相關內(nèi)容。該處理方式降低了針對開放關鍵詞詞匯的實用性,從而降低了關鍵詞的搜索效率。
技術實現(xiàn)思路
1、本公開實施例至少提供一種語音關鍵詞的檢索方法、裝置、電子設備及存儲介質。
2、第一方面,本公開實施例提供了一種語音關鍵詞的檢索方法,包括:
3、確定待檢索的目標音頻的頻域特征;
4、基于所述頻域特征確定所述目標音頻的音節(jié)后驗概率;其中,所述音節(jié)后驗概率用于指示所述目標音頻的各時刻的音節(jié)為預設音節(jié)的概率值;
5、基于所述音節(jié)后驗概率確定所述目標音頻的音節(jié)詞圖;其中,所述音節(jié)詞圖用于指示所述預設音節(jié)中與目標時刻滿足關聯(lián)要求的目標音節(jié)的后驗概率,所述目標時刻所對應的音節(jié)用于指示所述目標音頻的語義信息;
6、基于所述音節(jié)詞圖對所述目標音頻進行關鍵詞搜索,得到關鍵詞搜索結果。
7、一種可選的實施方式中,所述音節(jié)后驗概率包括多個概率向量;所述基于所述音節(jié)后驗概率確定所述目標音頻的音節(jié)詞圖,包括:
8、確定所述多個概率向量中的第一概率向量;其中,每個所述概率向量用于指示相對應時刻的音節(jié)為預設音節(jié)的概率值,所述第一概率向量用于指示對應時刻的音節(jié)為空音節(jié)的概率值滿足第一要求;
9、對所述第一概率向量的各概率進行過濾,得到第二概率向量;其中,所述第二概率向量中各概率值滿足第二要求;
10、基于所述第二概率向量和所述第二概率向量所對應的時刻,確定所述音節(jié)詞圖。
11、一種可選的實施方式中,所述確定所述多個概率向量中第一概率向量,包括:
12、確定每個所述概率向量的音節(jié)評分;其中,所述音節(jié)評分用于指示該概率向量所對應時刻的音節(jié)為空音節(jié)的概率;
13、將所述音節(jié)評分大于預設評分閾值的概率向量,確定為所述第一概率向量。
14、一種可選的實施方式中,所述確定每個所述概率向量的音節(jié)評分,包括:
15、基于每個所述概率向量中空音節(jié)的后驗概率,確定該概率向量的音節(jié)評分。
16、一種可選的實施方式中,所述基于所述音節(jié)詞圖對所述目標音頻進行關鍵詞搜索,得到關鍵詞搜索結果,包括:
17、獲取待搜索關鍵詞的音節(jié)序列;
18、確定所述音節(jié)序列在所述音節(jié)詞圖中的路徑搜索結果;
19、基于所述路徑搜索結果,確定所述關鍵詞搜索結果。
20、一種可選的實施方式中,所述確定所述音節(jié)序列在所述音節(jié)詞圖中的路徑搜索結果,包括:
21、根據(jù)所述音節(jié)序列的首個音節(jié),確定所述音節(jié)詞圖中所述待搜索關鍵詞的備選搜索范圍;其中,所述備選搜索范圍用于指示搜索時刻的長度;
22、確定各個所述搜索時刻對應的目標搜索路徑;
23、基于最后搜索時刻對應的目標搜索路徑,確定所述路徑搜索結果。
24、一種可選的實施方式中,所述確定各個所述搜索時刻對應的目標搜索路徑,包括:
25、針對當前搜索時刻,獲取上一搜索時刻的上一目標搜索路徑;
26、基于所述上一目標搜索路徑,生成所述當前搜索時刻的新搜索路徑;
27、基于所述新搜索路徑確定所述當前搜索時刻的目標搜索路徑。
28、一種可選的實施方式中,所述基于所述新搜索路徑確定所述當前搜索時刻的目標搜索路徑,包括:
29、在確定所述新搜索路徑中存在已完成路徑的情況下,確定所述當前搜索時刻的最優(yōu)搜索路徑;
30、刪除所述新搜索路徑中路徑概率小于所述最優(yōu)搜索路徑的新搜索路徑,得到所述當前搜索時刻的目標搜索路徑。
31、一種可選的實施方式中,所述基于所述上一目標搜索路徑,生成所述當前搜索時刻的新搜索路徑,包括:
32、在所述上一目標搜索路徑中添加無效音節(jié),得到所述新搜索路徑;其中,所述無效音節(jié)包括:靜音音節(jié)和/或空音節(jié);
33、和/或
34、通過所述備選搜索范圍中所述當前搜索時刻所對應的第一音節(jié)替換所述上一目標搜索路徑的第二音節(jié),得到所述新搜索路徑;其中,所述第二音節(jié)為所述上一目標搜索路徑中的最后一個音節(jié),且所述第二音節(jié)為除靜音音節(jié)和空音節(jié)之外與所述第一音節(jié)相同的音節(jié);
35、和/或
36、在所述上一目標搜索路徑中添加所述音節(jié)序列中與所述當前搜索時刻對應的第三音節(jié),得到所述新搜索路徑。
37、一種可選的實施方式中,所述基于所述頻域特征確定所述目標音頻的音節(jié)后驗概率,包括:
38、通過共享編碼器對所述頻域特征進行編碼,得到編碼特征;
39、通過ctc語音識別網(wǎng)絡,對所述編碼特征進行處理,得到所述音節(jié)后驗概率。
40、一種可選的實施方式中,所述方法還包括通過以下方法對所述共享編碼器進行訓練:
41、獲取訓練音頻樣本,并提取所述訓練音頻樣本的樣本頻域特征;
42、通過共享編碼器對所述訓練音頻樣本的頻域特征進行編碼處理,得到樣本編碼特征;
43、將所述樣本編碼特征輸入至多種網(wǎng)絡模型中進行處理,并基于處理結果確定多種損失函數(shù)值;
44、基于所述多種損失函數(shù)值,對所述共享編碼器進行訓練。
45、一種可選的實施方式中,所述將所述樣本編碼特征輸入至多種網(wǎng)絡模型中進行處理,并基于處理結果確定多種損失函數(shù)值,包括:
46、基于預測網(wǎng)絡確定所述訓練音頻樣本的真實音節(jié)序列的編碼向量,并基于所述編碼向量和所述樣本編碼特征的融合結果,確定rnn-t損失值;
47、通過分類器網(wǎng)絡對所述樣本編碼特征進行處理,并根據(jù)處理結果計算交叉熵損失函數(shù)值;
48、通過ctc語音識別網(wǎng)絡對所述樣本編碼特征進行處理,并根據(jù)處理結果計算ctc損失函數(shù)值;
49、通過transformer網(wǎng)絡對所述樣本編碼特征進行處理,并根據(jù)處理結果計算kld損失函數(shù)值。
50、第二方面,本公開實施例還提供一種語音關鍵詞的檢索裝置,包括:
51、第一確定單元,用于確定待檢索的目標音頻的頻域特征;
52、第二確定單元,用于基于所述頻域特征確定所述目標音頻的音節(jié)后驗概率;其中,所述音節(jié)后驗概率用于指示所述目標音頻的各時刻的音節(jié)為預設音節(jié)的概率值;
53、第三確定單元,用于基于所述音節(jié)后驗概率確定所述目標音頻的音節(jié)詞圖;其中,所述音節(jié)詞圖用于指示所述預設音節(jié)中與目標時刻滿足關聯(lián)要求的目標音節(jié)的后驗概率,所述目標時刻所對應的音節(jié)用于指示所述目標音頻的語義信息;
54、關鍵詞搜索單元,用于基于所述音節(jié)詞圖對所述目標音頻進行關鍵詞搜索,得到關鍵詞搜索結果。
55、第三方面,本公開實施例還提供一種電子設備,包括:處理器、存儲器和總線,所述存儲器存儲有所述處理器可執(zhí)行的機器可讀指令,當電子設備運行時,所述處理器與所述存儲器之間通過總線通信,所述機器可讀指令被所述處理器執(zhí)行時執(zhí)行上述第一方面,或第一方面中任一種可能的實施方式中的步驟。
56、第四方面,本公開實施例還提供一種計算機可讀存儲介質,該計算機可讀存儲介質上存儲有計算機程序,該計算機程序被處理器運行時執(zhí)行上述第一方面,或第一方面中任一種可能的實施方式中的步驟。
57、在本技術實施例中,首先,可以獲取待檢索的目標音頻,并確定該目標音頻的頻域特征;然后,基于該頻域特征確定目標音頻的音節(jié)后驗概率,通過該音節(jié)后驗概率可以確定該目標音頻的各個時刻的音節(jié)為預設音節(jié)的概率值;之后,基于該音節(jié)后驗概率確定目標音頻的音節(jié)詞圖,通過該音節(jié)詞圖,可以確定預設音節(jié)中與各個時刻滿足關聯(lián)要求的目標音節(jié)的后驗概率,最后,根據(jù)該音節(jié)詞圖對目標音頻進行關鍵詞搜索,得到關鍵詞搜索結果。
58、上述實施方式中,通過基于目標音頻的音節(jié)后驗概率確定該目標音頻的音節(jié)詞圖,進而通過該音節(jié)詞圖對關鍵詞進行搜索的方式,不需要為新增關鍵詞增設相關識別內(nèi)容,例如,不需要增設該新增關鍵詞的數(shù)學模型和音頻樣例。通過該處理方式,可以自由定義需要進行搜索的關鍵詞,從而提高關鍵詞搜索的靈活性,同時簡化關鍵詞搜索的流程,進而提高關鍵詞搜索的效率。
59、為使本公開的上述目的、特征和優(yōu)點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細說明如下。