背景技術(shù):
1、隨著數(shù)字無線電話網(wǎng)絡、互聯(lián)網(wǎng)上的語音流式傳送和互聯(lián)網(wǎng)電話的出現(xiàn),語音的數(shù)字處理變得常見。工程師使用壓縮來有效地處理語音,同時仍然保持質(zhì)量。語音壓縮的一個目標是以一種針對給定量的比特提供最大信號質(zhì)量的方式來表示語音信號。換句話說,這個目標是針對給定的質(zhì)量水平使用最少比特來表示語音信號。在一些場景中,使用其它目標,例如傳輸錯誤的彈性和限制由于編碼/傳輸/解碼導致的整體延遲。
2、一種類型的傳統(tǒng)語音編碼器/解碼器(“編解碼器”)使用線性預測(“l(fā)p”)來實現(xiàn)壓縮。語音編碼器找到并量化針對預測濾波器的lp系數(shù),該預測濾波器用于將樣本值預測為先前樣本值的線性組合。殘差信號(也稱為“激勵”信號)指示原始信號中的未被濾波準確預測的部分。語音編碼器對殘差信號進行壓縮,通常針對濁音段(以聲帶振動為特征)、清音段和無聲段使用不同的壓縮技術(shù),因為不同種類的語音具有不同的特性。對應的語音解碼器重構(gòu)殘差信號,恢復用于合成濾波器的lp系數(shù),并用合成濾波器來處理殘差信號。
3、考慮到壓縮在計算機系統(tǒng)中表示語音的重要性,語音壓縮吸引了大量的研究和開發(fā)活動。雖然以前的語音編解碼器針對很多場景都提供了良好的性能,但它們也有一些缺點。特別地,當以前的語音編解碼器用于非常低的比特率場景時,可能會出現(xiàn)問題。在這種情況下,無線電話網(wǎng)絡或其它網(wǎng)絡可能沒有足夠的帶寬(例如,由于擁塞或分組丟失)或傳輸質(zhì)量問題(例如,由于傳輸噪聲或間歇性延遲),這會阻止在適用于實時通信的質(zhì)量約束和時間約束下傳輸編碼語音。
技術(shù)實現(xiàn)思路
1、在本
技術(shù)實現(xiàn)要素:
中,詳細描述呈現(xiàn)了語音編碼和語音解碼方面的創(chuàng)新。一些創(chuàng)新涉及在語音編碼期間的相位量化。其它創(chuàng)新涉及在語音解碼期間的相位重構(gòu)。在許多情況下,這些創(chuàng)新可以提高在低比特率場景中語音編解碼器的性能,即使當編碼的數(shù)據(jù)通過經(jīng)受帶寬不足或傳輸質(zhì)量問題的網(wǎng)絡傳輸也是如此。
2、根據(jù)本文描述的第一組創(chuàng)新,語音編碼器接收語音輸入(例如,在輸入緩沖區(qū)中),編碼語音輸入以產(chǎn)生編碼的數(shù)據(jù),并存儲編碼的數(shù)據(jù)(例如,在輸出緩沖區(qū)中)以用于作為比特流的一部分輸出。作為編碼的一部分,語音編碼器根據(jù)線性預測(“l(fā)p”)系數(shù)來過濾基于語音輸入的輸入值,從而產(chǎn)生殘差值。語音編碼器編碼殘差值。特別地,語音編碼器確定并編碼相位值的集合??梢岳缤ㄟ^將頻率變換應用于當前幀的子幀,這產(chǎn)生了針對子幀的復幅度值,并基于復幅度值來計算相位值(和對應的幅度值),來確定相位值。為了提高性能,語音編碼器可以在編碼相位值的集合時執(zhí)行各種操作。
3、例如,當對相位值的集合進行編碼時,語音編碼器使用線性分量和基函數(shù)(例如,正弦函數(shù))的加權(quán)和來表示相位值的集合中的至少一些。語音編碼器可以使用延遲的決策方法或其它方法來確定對基函數(shù)進行加權(quán)的系數(shù)的集合。系數(shù)的計數(shù)可以變化,這取決于針對編碼的數(shù)據(jù)的目標比特率和/或其它標準。當找到合適的系數(shù)時,語音編碼器可以使用基于線性相位測量的成本函數(shù)或其它成本函數(shù),從而基函數(shù)的加權(quán)和與線性分量一起類似于所表示的相位值。語音編碼器可以使用偏移值和斜率值來參數(shù)化與加權(quán)和組合的線性分量。使用線性分量和基函數(shù)的加權(quán)和,語音編碼器可以以緊湊且靈活的方式準確表示相位值,這可以提高低比特率場景下的比率失真性能(即,提供針對給定的比特率的更好的質(zhì)量,或者等效地提供針對給定的質(zhì)量級別的較低的比特率)。
4、作為另一示例,當對相位值的集合進行編碼時,語音編碼器會省略具有的頻率高于截止頻率的任何相位值的集合。語音編碼器可以至少部分地基于針對編碼的數(shù)據(jù)的目標比特率、基音(pitch)周期信息和/或其它標準來選擇截止頻率。省略的較高頻相位值可以在解碼期間基于較低頻相位值而合成,這些較低頻相位值是編碼的數(shù)據(jù)的一部分。通過省略較高頻相位值(并在解碼期間基于較低頻相位值合成它們),語音編碼器可以有效地表示完整范圍的相位值,這可以提高在低比特率場景下的比率失真性能。
5、根據(jù)本文描述的創(chuàng)新的第二集合,語音解碼器接收編碼的數(shù)據(jù)(例如,在輸入緩沖區(qū)中)作為比特流的一部分,解碼該編碼的數(shù)據(jù)以重構(gòu)語音,并存儲重構(gòu)的語音(例如,在輸出緩沖區(qū)中)以用于輸出。作為解碼的一部分,語音解碼器解碼殘差值,并根據(jù)lp系數(shù)過濾殘差值。特別地,語音解碼器解碼相位值的集合,并至少部分地基于相位值的集合來重構(gòu)殘差值。為了提高性能,語音解碼器可以在解碼相位值的集合時執(zhí)行各種操作。
6、例如,當解碼相位值的集合時,語音解碼器使用線性分量和基函數(shù)(例如正弦函數(shù))的加權(quán)和來重構(gòu)相位值的集合中的至少一些??梢酝ㄟ^偏移值和斜率值來參數(shù)化線性分量。語音解碼器可以解碼系數(shù)的集合(其對基函數(shù)進行加權(quán))、偏移值和斜率值,然后使用系數(shù)的集合、偏移值和斜率值作為重構(gòu)相位值的一部分。對基函數(shù)進行加權(quán)的系數(shù)的計數(shù)可以取決于針對編碼的數(shù)據(jù)的目標比特率和/或其它標準而變化。使用線性分量和基函數(shù)的加權(quán)和,可以以緊湊且靈活的方式準確地表示相位值,這可以提高低比特率場景下的比率失真性能。
7、作為另一示例,當解碼相位值的集合時,語音解碼器重構(gòu)相位值的集合的第一子集,然后使用第一子集中的至少一些來合成相位值的集合的第二子集,其中第二子集中的每個相位值都具有高于截止頻率的頻率。語音解碼器可以至少部分地基于針對編碼的數(shù)據(jù)的目標比特率、基音周期信息和/或其它標準來確定截止頻率。為了合成第二子集的相位值,語音解碼器可以識別第一子集的范圍,確定(作為模式)第一子集的范圍內(nèi)相鄰相位值之間的差異,重復截止頻率以上的模式,并且然后對相鄰相位值之間的差異進行積分以確定第二子集。通過基于在比特流中用信號發(fā)送的較低頻相位值來合成省略的較高頻相位值,語音解碼器可以有效地重構(gòu)整個范圍的相位值,這可以提高低比特率場景下的比率失真性能。
8、本文描述的創(chuàng)新包括但不限于權(quán)利要求所涵蓋的創(chuàng)新。這些創(chuàng)新可以被實現(xiàn)為方法的一部分,被配置為執(zhí)行方法的計算機系統(tǒng)的一部分,或者存儲用于使計算機系統(tǒng)中的一個或多個處理器執(zhí)行該方法的計算機可執(zhí)行指令的計算機可讀介質(zhì)的一部分。各種創(chuàng)新可以組合使用或單獨使用。提供該發(fā)明內(nèi)容來引入以簡化形式將在以下具體實施方式中進一步描述的概念的選擇。該發(fā)明內(nèi)容無意識別要求保護的主題的關鍵特征或必要特征,也不旨在用于限制要求保護的主題的范圍。本發(fā)明的前述和其它目的、特征和優(yōu)點將從以下參照附圖進行的具體實施方式中變得更加明顯,并說明了許多示例。示例還可以用于其它且不同的應用,并且在不背離所公開的創(chuàng)新的精神和范圍的情況下,可以在各個方面修改一些細節(jié)。
1.一種計算機系統(tǒng),包括:
2.根據(jù)權(quán)利要求1所述的計算機系統(tǒng),其中,重構(gòu)所述殘差值包括:
3.根據(jù)權(quán)利要求1所述的計算機系統(tǒng),其中,重構(gòu)的相位值是所述相位值的集合中的較低頻率相位值,并且其中,解碼所述相位值的集合還包括使用所述較低頻率相位值中的至少一些相位值來合成所述相位值的集合中的較高頻率相位值,所述較高頻率相位值中的每個相位值具有高于截止頻率的頻率。
4.根據(jù)權(quán)利要求1所述的計算機系統(tǒng),其中,所述基函數(shù)是正弦函數(shù)。
5.根據(jù)權(quán)利要求1所述的計算機系統(tǒng),其中,解碼所述相位值的集合還包括:
6.根據(jù)權(quán)利要求5所述的計算機系統(tǒng),其中,解碼所述相位值的集合還包括確定對所述基函數(shù)加權(quán)的所述系數(shù)的計數(shù)。
7.根據(jù)權(quán)利要求1所述的計算機系統(tǒng),其中,重構(gòu)所述殘差值包括:
8.一種計算機實現(xiàn)的方法,包括:
9.根據(jù)權(quán)利要求8所述的方法,其中,重構(gòu)所述殘差值還包括至少部分地基于基音周期信息和跨邊界的幅度值差異中的一個或多個,自適應地平滑針對所述各個子幀的復幅度值,并且其中,所述逆頻率變換是應用于平滑后的復幅度值的。
10.根據(jù)權(quán)利要求8所述的方法,其中,重構(gòu)所述殘差值還包括重復針對所述一個或多個子幀中的至少一個子幀的相位值的集合,其中,所述各個子幀的復幅度值是使用所重復的相位值的集合重構(gòu)的。
11.根據(jù)權(quán)利要求8所述的方法,其中,解碼所述相位值的集合包括使用至少一些較低頻率相位值來合成所述相位值的集合中的較高頻率相位值,所述較高頻率相位值中的每個相位值具有高于截止頻率的頻率。
12.根據(jù)權(quán)利要求8所述的方法,其中,解碼所述相位值的集合包括使用基函數(shù)的加權(quán)和來重構(gòu)所述相位值的集合中的至少一些相位值。
13.一種或多種計算機可讀存儲器或存儲設備,其上存儲有作為比特流一部分的編碼的數(shù)據(jù),所述編碼的數(shù)據(jù)包括系數(shù)的集合、偏移值和相位值的集合的斜率值,所述編碼的數(shù)據(jù)被組織成利用使用一個或多個處理器實現(xiàn)的語音解碼器,通過包括以下項的操作來促進解碼所述編碼的數(shù)據(jù)以重構(gòu)語音,所述操作包括:
14.根據(jù)權(quán)利要求13所述的一種或多種計算機可讀存儲器或存儲設備,其中,所述偏移值和所述斜率值對線性分量進行參數(shù)化,并且其中,重構(gòu)所述相位值的集合中的至少一些相位值也使用所述線性分量。
15.根據(jù)權(quán)利要求13所述的一種或多種計算機可讀存儲器或存儲設備,其中,所述編碼的數(shù)據(jù)還包括針對所述編碼的數(shù)據(jù)的目標比特率和/或基音周期信息,其中,重構(gòu)的相位值是所述相位值的集合中的較低頻率相位值,并且其中,解碼所述相位值的集合還包括:
16.根據(jù)權(quán)利要求13所述的一種或多種計算機可讀存儲器或存儲設備,其中,所述編碼的數(shù)據(jù)還包括針對幅度值的一個或多個集合的編碼的數(shù)據(jù),并且其中,解碼所述相位值的集合還包括:
17.根據(jù)權(quán)利要求13所述的一個或多個計算機可讀存儲器或存儲設備,其中,編碼的數(shù)據(jù)還包括稀疏度值和相關值,并且其中,所述操作還包括:
18.一種計算機實現(xiàn)的方法,包括:
19.根據(jù)權(quán)利要求18所述的方法,其中,重構(gòu)所述殘差值包括:
20.根據(jù)權(quán)利要求18所述的方法,其中,重構(gòu)所述殘差值包括重構(gòu)針對一個或多個子幀的復幅度值,包括:
21.一種或多種非瞬時性計算機可讀介質(zhì),其上存儲有作為比特流一部分的編碼的數(shù)據(jù),所述編碼的數(shù)據(jù)被組織成通過執(zhí)行包括以下項的操作來促進解碼以重構(gòu)語音:
22.一種計算機系統(tǒng),包括:
23.根據(jù)權(quán)利要求22所述的計算機系統(tǒng),其中,為了對所述相位值的集合進行編碼,所述殘差編碼器還被配置為執(zhí)行操作以:
24.根據(jù)權(quán)利要求23所述的計算機系統(tǒng),其中,所述殘差編碼器還被配置為至少部分地基于針對所述編碼的數(shù)據(jù)的目標比特率和/或基音周期信息來選擇所述截止頻率。
25.根據(jù)權(quán)利要求22所述的計算機系統(tǒng),其中,為了對所述相位值的集合進行編碼,所述殘差編碼器還被配置為執(zhí)行操作以:
26.根據(jù)權(quán)利要求22所述的計算機系統(tǒng),其中,所述相位值的集合中的至少一些相位值也是使用線性分量表示的,并且其中,為了對所述相位值的集合進行編碼,所述殘差編碼器還被配置為執(zhí)行操作以:
27.根據(jù)權(quán)利要求22所述的計算機系統(tǒng),其中,所述語音編碼器還包括:
28.根據(jù)權(quán)利要求27所述的計算機系統(tǒng),其中,所述殘差編碼器還被配置為:
29.根據(jù)權(quán)利要求22所述的計算機系統(tǒng),其中,所述語音編碼器還包括以下一個或多個:
30.根據(jù)權(quán)利要求22所述的計算機系統(tǒng),其中,所述殘差編碼器還被配置為,針對當前幀:
31.一種或多種非瞬時性計算機可讀介質(zhì),其上存儲有計算機可執(zhí)行指令,所述計算機可執(zhí)行指令在被編程時使得一個或多個處理單元執(zhí)行操作,所述操作包括:
32.根據(jù)權(quán)利要求31所述的一種或多種計算機可讀介質(zhì),其中,重構(gòu)的相位值是所述相位值的集合中的較低頻率相位值,并且其中,解碼所述相位值的集合還包括使用所述較低頻率相位值中的至少一些相位值來合成所述相位值的集合中的較高頻率相位值,所述較高頻率相位值中的每個相位值具有高于截止頻率的頻率,所述截止頻率是至少部分地基于針對所述編碼的數(shù)據(jù)的目標比特率和/或基音周期信息的。
33.一種或多種非瞬時性計算機可讀介質(zhì),其上存儲有作為比特流一部分的編碼的數(shù)據(jù),所述編碼的數(shù)據(jù)被組織成通過執(zhí)行包括以下項的操作來促進解碼以重構(gòu)語音:
34.根據(jù)權(quán)利要求33所述的一種或多種計算機可讀介質(zhì),其中,解碼所述相位值的集合包括使用至少一些較低頻率相位值來合成所述相位值的集合中的較高頻率相位值,所述較高頻率相位值中的每個相位值具有高于截止頻率的頻率,所述截止頻率是至少部分地基于針對所述編碼的數(shù)據(jù)的目標比特率和/或基音周期信息的。
35.一種或多種非瞬時性計算機可讀介質(zhì),其上存儲有計算機可執(zhí)行指令,所述計算機可執(zhí)行指令在被編程時使得一個或多個處理單元執(zhí)行操作,所述操作包括:
36.根據(jù)權(quán)利要求35所述的一種或多種計算機可讀介質(zhì),其中,對所述相位值的集合進行編碼包括省略所述相位值的集合中具有高于截止頻率的頻率的任何相位值,所述截止頻率是至少部分地基于針對所述編碼的數(shù)據(jù)的目標比特率和/或基音周期信息的。