至少一個實施例涉及使用諸如語音識別任務(wù)的持續(xù)時間的處理。例如,至少一個實施例涉及用于使用一個或更多個神經(jīng)網(wǎng)絡(luò)至少部分地基于一個或更多個預(yù)測的符號和持續(xù)時間來生成文本的處理器或計算設(shè)備。在至少一個實施例中,一種處理器包括一個或更多個電路,該一個或更多個電路用于使用一個或更多個神經(jīng)網(wǎng)絡(luò)以至少部分地基于包含音頻信息的僅音頻幀來生成文本。
背景技術(shù):
1、使用神經(jīng)網(wǎng)絡(luò)來處理音頻信號的每個幀會使用大量的存儲器、時間或計算資源。例如,神經(jīng)網(wǎng)絡(luò)可以接收5秒的音頻記錄并使用10毫秒的幀速率,結(jié)果是500個幀作為神經(jīng)網(wǎng)絡(luò)的輸入,其中這500個幀用于推理文本。作為另一示例,神經(jīng)網(wǎng)絡(luò)可接收5秒的音頻記錄并使用1毫秒的幀速率,結(jié)果是5000個幀作為神經(jīng)網(wǎng)絡(luò)的輸入,其中這5000個幀用于推理文本。因為神經(jīng)網(wǎng)絡(luò)在處理音頻信號時會使用音頻信號的每個幀,所以處理時間、存儲器和計算資源可能是大量的。因此,可以改善用于利用神經(jīng)網(wǎng)絡(luò)處理音頻信號的存儲器、時間或計算資源的量。
技術(shù)實現(xiàn)思路
1.一種處理器,包括:
2.如權(quán)利要求1所述的處理器,其中所述音頻信息包括一個或更多個符號以及所述一個或更多個符號的持續(xù)時間。
3.如權(quán)利要求1所述的處理器,其中所述音頻信息包括一個或更多個符號,并且所述一個或更多個符號是空白的或者不是空白的。
4.如權(quán)利要求1所述的處理器,其中所述一個或更多個神經(jīng)網(wǎng)絡(luò)用于使用用于預(yù)測在推理時要跳過的一個或更多個幀的預(yù)測的持續(xù)時間和先前預(yù)測的文本來生成文本。
5.如權(quán)利要求1所述的處理器,其中所述一個或更多個神經(jīng)網(wǎng)絡(luò)包括變換器神經(jīng)網(wǎng)絡(luò),所述變換器神經(jīng)網(wǎng)絡(luò)用于預(yù)測在推理時要跳過的幀的數(shù)量。
6.如權(quán)利要求1所述的處理器,其中所述一個或更多個神經(jīng)網(wǎng)絡(luò)包括變換器神經(jīng)網(wǎng)絡(luò),所述變換器神經(jīng)網(wǎng)絡(luò)用于生成從一個或更多個音頻幀生成具有持續(xù)時間的詞元的聯(lián)合概率。
7.如權(quán)利要求1所述的處理器,其中所述一個或更多個神經(jīng)網(wǎng)絡(luò)包括一個或更多個解碼器、編碼器和用于生成預(yù)測的持續(xù)時間的聯(lián)合網(wǎng)絡(luò)層。
8.一種系統(tǒng),包括:
9.如權(quán)利要求8所述的系統(tǒng),其中所述音頻信息包括一個或更多個符號以及所述一個或更多個符號的持續(xù)時間。
10.如權(quán)利要求8所述的系統(tǒng),其中所述音頻信息包括一個或更多個符號,并且所述一個或更多個符號是空白的或者不是空白的。
11.如權(quán)利要求8所述的系統(tǒng),其中所述一個或更多個神經(jīng)網(wǎng)絡(luò)用于使用用于預(yù)測在推理時要跳過的一個或更多個幀的預(yù)測的持續(xù)時間和先前預(yù)測的文本來生成文本。
12.如權(quán)利要求8所述的系統(tǒng),其中所述一個或更多個神經(jīng)網(wǎng)絡(luò)包括變換器神經(jīng)網(wǎng)絡(luò),所述變換器神經(jīng)網(wǎng)絡(luò)用于預(yù)測在推理時要跳過的幀的數(shù)量。
13.如權(quán)利要求8所述的系統(tǒng),其中所述一個或更多個神經(jīng)網(wǎng)絡(luò)包括變換器神經(jīng)網(wǎng)絡(luò),所述變換器神經(jīng)網(wǎng)絡(luò)用于生成從一個或更多個音頻幀生成具有持續(xù)時間的詞元的聯(lián)合概率。
14.如權(quán)利要求8所述的系統(tǒng),其中所述一個或更多個神經(jīng)網(wǎng)絡(luò)包括一個或更多個解碼器、編碼器和用于生成預(yù)測的持續(xù)時間的聯(lián)合網(wǎng)絡(luò)層。
15.一種方法,包括:
16.如權(quán)利要求15所述的方法,其中所述音頻信息包括一個或更多個符號以及所述一個或更多個符號的持續(xù)時間。
17.如權(quán)利要求15所述的方法,其中所述音頻信息包括一個或更多個符號,并且所述一個或更多個符號是空白的或者不是空白的。
18.如權(quán)利要求15所述的方法,進一步包括:使用用于預(yù)測在推理時要跳過的一個或更多個幀的預(yù)測的持續(xù)時間和先前預(yù)測的文本來生成文本。
19.如權(quán)利要求15所述的方法,其中所述一個或更多個神經(jīng)網(wǎng)絡(luò)包括變換器神經(jīng)網(wǎng)絡(luò),所述變換器神經(jīng)網(wǎng)絡(luò)用于預(yù)測在推理時要跳過的幀的數(shù)量。
20.如權(quán)利要求15所述的方法,其中所述一個或更多個神經(jīng)網(wǎng)絡(luò)包括一個或更多個解碼器、編碼器和用于生成預(yù)測的持續(xù)時間的聯(lián)合網(wǎng)絡(luò)層。