本技術(shù)實施例涉及編解碼領(lǐng)域,尤其涉及一種場景音頻解碼方法及電子設(shè)備。
背景技術(shù):
1、三維音頻技術(shù)是通過計算機、信號處理等方式對真實世界中聲音事件和三維聲場信息進行獲取、處理,傳輸和渲染回放的音頻技術(shù)。三維音頻使聲音具有強烈的空間感、包圍感及沉浸感,給人以“聲臨其境”的非凡聽覺體驗。其中,hoa(higher?order?ambisonics,高階立體混響)技術(shù)具有在錄制、編碼與回放階段與揚聲器布局無關(guān)的性質(zhì)以及hoa格式數(shù)據(jù)的可旋轉(zhuǎn)回放特性,在進行三維音頻回放時具有更高的靈活性,因而也得到了更為廣泛的關(guān)注和研究。
2、對于n階hoa信號來說,其對應的通道數(shù)為(n+1)2。隨著hoa階數(shù)的增加,hoa信號中用于記錄更詳細的聲音場景的信息也會隨之增加;但hoa信號的數(shù)據(jù)量也會隨之增多,大量的數(shù)據(jù)造成傳輸和存儲的困難,因此需要對hoa信號進行編解碼。
3、目前,在對hoa信號解碼的過程中,通常會對hoa信號的部分通道進行解相關(guān)解碼,但是解碼得到的部分通道的重建音頻信號質(zhì)量較差。
技術(shù)實現(xiàn)思路
1、鑒于此,本技術(shù)提供一種場景音頻解碼方法及電子設(shè)備。該方法能夠提高場景音頻信號中部分通道的音頻重建質(zhì)量。
2、第一方面,本技術(shù)實施例提供一種場景音頻解碼方法,該方法包括:首先,接收碼流;接著,解碼碼流,以得到重建信號組和目標虛擬揚聲器的屬性信息,重建信號組包括場景音頻信號中第一音頻信號的第一重建信號,場景音頻信號包括c1個第一通道的音頻信號,第一音頻信號為場景音頻信號中k個第一通道的音頻信號,c1為正整數(shù),k為小于或等于c1的正整數(shù);以及基于屬性信息和重建信號組,生成第一重建場景音頻信號;第一重建場景音頻信號包括c2個第二通道的第二重建信號,c2為正整數(shù);隨后,基于第一通道的第一重建信號與第三通道的第二重建信號的相關(guān)度,確定頻域解相關(guān)方式,第三通道為c2個第二通道中除與k個第一通道對應的k個第二通道之外的通道;之后,采用頻域解相關(guān)方式,對第三通道進行解相關(guān)解碼,以得到第三通道的第三重建信號;將第一重建場景音頻信號中第三通道的第二重建信號,替換為第三通道的第三重建信號,以得到第二重建場景音頻信號。
3、也就是說,對于待進行解相關(guān)解碼的第三通道,先判斷采用哪種頻域解相關(guān)方式對第三通道進行解相關(guān)解碼;待確定第三通道對應的頻域解相關(guān)方式之后,再采用頻域解相關(guān)方式,對第三通道進行解相關(guān)解碼。由于當?shù)谝煌ǖ赖牡谝恢亟ㄐ盘柵c第三通道的第二重建信號的相關(guān)度不同時,同一種頻域解相關(guān)方式對第三通道進行解相關(guān)解碼所對應的重建效果不同;因此,根據(jù)與第一通道的第一重建信號與第三通道的第二重建信號的相關(guān)度,來確定第三通道對應的頻域解相關(guān)方式,能夠確定與第三通道適配的頻域解相關(guān)方式;進而可以提高第三通道的音頻重建質(zhì)量。
4、示例性的,第三通道可以為一個或多個。
5、示例性的,本技術(shù)實施例涉及的場景音頻信號,可以是指用于描述聲場的信號;其中,場景音頻信號可以包括:hoa信號(其中,hoa信號可以包括三維hoa信號和二維hoa信號(也可以稱為平面hoa信號))和三維音頻信號;三維音頻信號可以是指場景音頻信號中除hoa信號之外的其他音頻信號。
6、示例性的,當場景音頻信號為hoa信號時,該hoa信號可以為n1階hoa信號,也就是當m截斷到第n1項時,上述公式(3)中的n1為正整數(shù)。
7、示例性的,n1階hoa信號可以包括c1個第一通道的音頻信號,c1=(n1+1)2。例如,n1=3時,n1階hoa信號包括16個通道的音頻信號;n1=4時,n1階hoa信號包括25個通道的音頻信號。
8、示例性的,第一音頻信號包括第二音頻信號,第二音頻信號為n1階hoa信號中第0階至第m階的信號。
9、示例性的,第一音頻信號包括第三音頻信號,第三音頻信號為n1階hoa信號中第0階至第m階的信號中的部分通道的信號。
10、示例性的,第一音頻信號包括第二音頻信號和第四音頻信號,第四音頻信號為n1階hoa信號中除第二音頻信號之外的音頻信號,m為小于n1的整數(shù),c1等于(n1+1)的平方。
11、示例性的,當場景音頻信號為hoa信號時,重建得到的第一重建場景音頻信號也可以為hoa信號,該hoa信號可以是n2階hoa信號,n2為正整數(shù)。示例性的,n2階hoa信號可以包括c2個通道的音頻信號,c2=(n2+1)2,n2為正整數(shù)。
12、示例性的,第一重建場景音頻信號的階數(shù)n2,可以大于或等于場景音頻信號的階數(shù)n1;對應的,第一重建場景音頻信號包括的音頻信號的通道數(shù)c2,可以大于或等于場景音頻信號包括的音頻信號的通道數(shù)c1。
13、需要說明的是,目標虛擬揚聲器的位置與場景音頻信號中聲源的位置相匹配;基于目標虛擬揚聲器的屬性信息和場景音頻信號中部分通道的音頻信號,可以生成目標虛擬揚聲器對應的虛擬揚聲器信號;基于虛擬揚聲器信號,可以重建出該場景音頻信號。因此,編碼端將場景音頻信號中部分通道的音頻信號和目標虛擬揚聲器的屬性信息編碼后發(fā)送給解碼端,解碼端可以基于解碼得到部分通道的重建音頻信號和目標虛擬揚聲器的屬性信息,重建出該場景音頻信號。
14、其中,目標虛擬揚聲器的屬性信息的數(shù)據(jù)量,遠小于一個通道的音頻信號的數(shù)據(jù)量;因此相對于第一編碼方式編碼而言,第二編碼方式編碼所需的碼率開銷更小。
15、目標虛擬揚聲器的屬性信息包括以下至少一種:目標虛擬揚聲器的位置信息,目標虛擬揚聲器的位置信息對應的位置索引,或,目標虛擬揚聲器的虛擬揚聲器索引。
16、示例性的,在球坐標系下,目標虛擬揚聲器的位置信息可以如其中,θs3為目標虛擬揚聲器的水平角信息,為目標虛擬揚聲器的俯仰角信息。
17、示例性的,位置索引用于唯一標識一個虛擬揚聲器的位置。其中,位置索引可以包括水平角索引(用于唯一標識一個水平角信息)和俯仰角索引(用于唯一標識一個俯仰角信息)。其中,虛擬揚聲器的位置索引與虛擬揚聲器的位置信息一一對應。
18、示例性的,虛擬揚聲器索引可以用于唯一標識一個虛擬揚聲器;其中,虛擬揚聲器的位置信息/位置索引,與虛擬揚聲器索引一一對應。
19、示例性的,重建信號組中用于計算相關(guān)度的第一通道,可以是n2階hoa信號中第0階對應的通道。
20、根據(jù)第一方面,頻域解相關(guān)方式包括全頻帶解相關(guān)方式或分頻帶解相關(guān)方式。
21、也就是說,可以基于第一通道的第一重建信號與第三通道的第二重建信號的相關(guān)度,確定選取全頻帶解相關(guān)方式,還是選取分頻帶解相關(guān)方式,作為第三通道對應的頻域解相關(guān)方式。
22、根據(jù)第一方面,或者以上第一方面的任意一種實現(xiàn)方式,基于第一通道的第一重建信號與第三通道的第二重建信號的相關(guān)度,確定頻域解相關(guān)方式,包括:當相關(guān)度大于相關(guān)度閾值時,確定頻域解相關(guān)方式為全頻帶解相關(guān)方式;當相關(guān)度小于或等于相關(guān)度閾值時,確定頻域解相關(guān)方式為分頻帶解相關(guān)方式。
23、其中,當相關(guān)度大于相關(guān)度閾值時,說明第三通道的第二重建信號與第一通道的第一重建信號相似度高,可以基于第一通道的第一重建信號對第三通道進行全頻帶解相關(guān)解碼,以保證第三通道的第三重建音頻信號的連續(xù)性。
24、當相關(guān)度小于或等于相關(guān)度閾值時,說明第三通道的第二重建信號與第一通道的第一重建信號相似度不高,可以對第三通道進行分頻帶解相關(guān)解碼,以保證第三通道的第三重建音頻信號的方向性(其中,音頻信號的方向性,影響用戶聽到的音頻信號中聲源的方位感)。
25、根據(jù)第一方面,或者以上第一方面的任意一種實現(xiàn)方式,基于第一通道的第一重建信號與第三通道的第二重建信號的相關(guān)度,確定頻域解相關(guān)方式,包括:當相關(guān)度小于或等于相關(guān)度閾值時,確定頻域解相關(guān)方式為全頻帶解相關(guān)方式;當相關(guān)度大于相關(guān)度閾值時,確定頻域解相關(guān)方式為分頻帶解相關(guān)方式。
26、其中,當相關(guān)度小于或等于相關(guān)度閾值時,說明第三通道的第二重建信號與第一通道的第一重建信號相似度高,可以基于第一通道的第一重建信號對第三通道進行全頻帶解相關(guān)解碼,以保證第三通道的第三重建音頻信號的連續(xù)性。
27、當相關(guān)度大于相關(guān)度閾值時,說明第三通道的第二重建信號與第一通道的第一重建信號相似度不高,可以對第三通道進行分頻帶解相關(guān)解碼,以保證第三通道的第三重建音頻信號的方向性(其中音頻信號的方向性,影響用戶聽到的音頻信號中聲源的方位感)。
28、根據(jù)第一方面,或者以上第一方面的任意一種實現(xiàn)方式,當頻域解相關(guān)方式為分頻帶解相關(guān)方式時,采用頻域解相關(guān)方式,對第三通道進行解相關(guān)解碼,以得到第三通道的第三重建信號,包括:基于第一系數(shù)組,對重建信號組、第三通道的第二重建信號和第三通道的第四重建信號進行加權(quán)計算,以得到第三通道的第三重建信號中第一部分;基于第二系數(shù)組,對重建信號組、第三通道的第二重建信號和第三通道的第四重建信號進行加權(quán)計算,以得到第三通道的第三重建信號中第二部分;其中,第一部分對應第一頻段,第二部分對應第二頻段;第三通道的第四重建信號是基于全頻帶解相關(guān)方式和重建信號組確定的。
29、由于重建信號組、第三通道的第二重建信號和第三通道的第四重建信號中,每一種重建信號中可能存在部分或全部與第三通道對應的原始音頻信號較為相似;因此本技術(shù)將重建信號組、第三通道的第二重建信號和第三通道的第四重建信號進行融合,來對第三通道進行解相關(guān)解碼,能夠提高第三通道的音頻重建質(zhì)量。
30、示例性的,重建信號組中用于確定第四重建信號的第一通道,可以是n2階hoa信號中第0階對應的通道。
31、其中,第一頻段的頻率大于第二頻段的頻率。
32、示例性的,第一系數(shù)組和第二系數(shù)組均可以包括第一系數(shù)、第二系數(shù)和第三系數(shù)。其中,第一系數(shù)與重建信號組對應;第二系數(shù)與第三通道的第二重建信號對應;第三系數(shù)與第三通道的第三重建信號對應。
33、其中,第一系數(shù)、第二系數(shù)和第三系數(shù)可以為0或者其他數(shù)值。
34、一種可能的方式中,第一系數(shù)組中的第一系數(shù)、第二系數(shù)和第三系數(shù)之和為1。
35、一種可能的方式中,第二系數(shù)組中的第一系數(shù)、第二系數(shù)和第三系數(shù)之和為1。
36、一種可能的方式中,確定第一系數(shù)組中第一系數(shù)為第四預設(shè)值、第二系數(shù)為第五預設(shè)值、第三系數(shù)為0,以及確定第二系數(shù)組中第一系數(shù)為第六預設(shè)值、第二系數(shù)為0和第三系數(shù)為第七預設(shè)值。
37、例如,第一預設(shè)值~第七預設(shè)值均為0.5,通道1的第一重建信號采用f1表示,第三通道的第二重建信號采用f2表示,第三通道的第三重建信號用f3表示;則
38、當相關(guān)度小于或等于相關(guān)閾值時,第三通道的第四重建信號中第一部分=0.5*f2的第一部分+0.5*f1的第一部分,第三通道的第四重建信號中第二部分=0.5*f1的第二部分+0.5*f3的第二部分。
39、根據(jù)第一方面,或者以上第一方面的任意一種實現(xiàn)方式,當頻域解相關(guān)方式為分頻帶解相關(guān)方式時,采用頻域解相關(guān)方式,對第三通道進行解相關(guān)解碼,以得到第三通道的第三重建信號,包括:基于第三系數(shù)組,對重建信號組、第三通道的第二重建信號和第三通道的第四重建信號進行加權(quán)計算,以得到第三通道的第三重建信號中第一部分;基于第四系數(shù)組,對重建信號組、第三通道的第二重建信號和第三通道的第四重建信號進行加權(quán)計算,以得到第三通道的第三重建信號中第二部分;其中,第一部分對應第一頻段,第二部分對應第二頻段;第三通道的第四重建信號是基于全頻帶解相關(guān)方式和重建信號組確定的。
40、由于重建信號組、第三通道的第二重建信號和第三通道的第四重建信號中,每一種重建信號中可能存在部分或全部與第三通道對應的原始音頻信號較為相似;因此本技術(shù)將重建信號組、第三通道的第二重建信號和第三通道的第四重建信號進行融合,來對第三通道進行解相關(guān)解碼,能夠提高第三通道的音頻重建質(zhì)量。
41、示例性的,第三系數(shù)組和第四系數(shù)組均可以包括第一系數(shù)、第二系數(shù)和第三系數(shù)。其中,第一系數(shù)與重建信號組對應;第二系數(shù)與第三通道的第二重建信號對應;第三系數(shù)與第三通道的第三重建信號對應。
42、其中,第一系數(shù)、第二系數(shù)和第三系數(shù)可以為0或者其他數(shù)值。
43、一種可能的方式中,第三系數(shù)組中的第一系數(shù)、第二系數(shù)和第三系數(shù)之和為1。
44、一種可能的方式中,第四系數(shù)組中的第一系數(shù)、第二系數(shù)和第三系數(shù)之和為1。
45、一種可能的方式中,確定第三系數(shù)組中第一系數(shù)和第三系數(shù)為0,第二系數(shù)為第一預設(shè)值,以及確定第四系數(shù)組中第一系數(shù)為第二預設(shè)值、第二系數(shù)為0和第三系數(shù)為第三預設(shè)值。
46、例如,第一預設(shè)值~第七預設(shè)值均為0.5,通道1的第一重建信號采用f1表示,第三通道的第二重建信號采用f2表示,第三通道的第三重建信號用f3表示;則第三通道的第四重建信號中第一部分=f2的第一部分,第三通道的第四重建信號中第二部分=0.5*f1的第二部分+0.5*f3的第二部分。
47、根據(jù)第一方面,或者以上第一方面的任意一種實現(xiàn)方式,第一通道的第一重建信號與第三通道的第二重建信號的相關(guān)度,為第一通道的第一重建信號與第三通道的第二重建信號之間的互相關(guān)度。
48、根據(jù)第一方面,或者以上第一方面的任意一種實現(xiàn)方式,基于屬性信息和重建信號組,生成第一重建場景音頻信號,包括:基于屬性信息和重建信號組,生成目標虛擬揚聲器對應的虛擬揚聲器信號;基于屬性信息和虛擬揚聲器信號進行重建,以得到第一重建場景音頻信號。這樣,能夠準確的重建出第一重建場景音頻信號。
49、根據(jù)第一方面,或者以上第一方面的任意一種實現(xiàn)方式,該方法還包括:基于重建信號組和第二重建場景音頻信號,生成第三重建場景音頻信號;第三重建場景音頻信號包括c2個第三通道的第四重建信號。
50、相對于第二重建場景音頻信號中與重建信號組的通道所對應通道的第二重建信號而言,解碼得到的重建信號組,更接近編碼端所編碼的第一音頻信號;進而基于第二重建場景音頻信號和重建信號組,生成第三重建場景音頻信號;然后,將第三重建場景音頻信號,作為最終的解碼結(jié)果;能夠得到音頻質(zhì)量更高的重建場景音頻信號。
51、第二方面,本技術(shù)實施例提供一種場景音頻解碼裝置,該裝置包括:
52、碼流接收模塊,用于接收碼流;
53、解碼模塊,用于解碼碼流,以得到重建信號組和目標虛擬揚聲器的屬性信息,重建信號組包括場景音頻信號中第一音頻信號的第一重建信號,場景音頻信號包括c1個第一通道的音頻信號,第一音頻信號為場景音頻信號中k個第一通道的音頻信號,c1為正整數(shù),k為小于或等于c1的正整數(shù);基于屬性信息和重建信號組,生成第一重建場景音頻信號;第一重建場景音頻信號包括c2個第二通道的第二重建信號,c2為正整數(shù);基于第一通道的第一重建信號與第三通道的第二重建信號的相關(guān)度,確定頻域解相關(guān)方式,第三通道為c2個第二通道中除與k個第一通道對應的k個第二通道之外的通道;采用頻域解相關(guān)方式,對第三通道進行解相關(guān)解碼,以得到第三通道的第三重建信號;將第一重建場景音頻信號中第三通道的第二重建信號,替換為第三通道的第三重建信號,以得到第二重建場景音頻信號。
54、第二方面的場景音頻解碼裝置,可以執(zhí)行第一方面以及第一方面的任意一種實現(xiàn)方式中的步驟,在此不再贅述。
55、此外,第一方面的場景音頻編碼裝置還可以包括通信模塊。
56、第二方面以及第二方面的任意一種實現(xiàn)方式分別與第一方面以及第一方面的任意一種實現(xiàn)方式相對應。第二方面以及第二方面的任意一種實現(xiàn)方式所對應的技術(shù)效果可參見上述第一方面以及第一方面的任意一種實現(xiàn)方式所對應的技術(shù)效果,此處不再贅述。
57、第三方面,本技術(shù)實施例提供一種電子設(shè)備,包括:存儲器和處理器,存儲器與處理器耦合;存儲器存儲有程序指令,當程序指令由處理器執(zhí)行時,使得電子設(shè)備執(zhí)行第一方面或第一方面的任意可能的實現(xiàn)方式中的場景音頻解碼方法。
58、第三方面以及第三方面的任意一種實現(xiàn)方式分別與第一方面以及第一方面的任意一種實現(xiàn)方式相對應。第三方面以及第三方面的任意一種實現(xiàn)方式所對應的技術(shù)效果可參見上述第一方面以及第一方面的任意一種實現(xiàn)方式所對應的技術(shù)效果,此處不再贅述。
59、第四方面,本技術(shù)實施例提供一種芯片,包括一個或多個接口電路和一個或多個處理器;一個或多個處理器通過一個或多個接口電路接收或發(fā)送數(shù)據(jù),當一個或多個處理器執(zhí)行計算機指令時,使得電子設(shè)備執(zhí)行第一方面或第一方面的任意可能的實現(xiàn)方式中的場景音頻解碼方法。
60、第四方面以及第四方面的任意一種實現(xiàn)方式分別與第一方面以及第一方面的任意一種實現(xiàn)方式相對應。第四方面以及第四方面的任意一種實現(xiàn)方式所對應的技術(shù)效果可參見上述第一方面以及第一方面的任意一種實現(xiàn)方式所對應的技術(shù)效果,此處不再贅述。
61、第五方面,本技術(shù)實施例提供一種計算機可讀存儲介質(zhì),計算機可讀存儲介質(zhì)存儲有計算機程序,當計算機程序運行在計算機或處理器上時,使得計算機或處理器執(zhí)行第一方面或第一方面的任意可能的實現(xiàn)方式中的場景音頻解碼方法。
62、第五方面以及第五方面的任意一種實現(xiàn)方式分別與第一方面以及第一方面的任意一種實現(xiàn)方式相對應。第五方面以及第五方面的任意一種實現(xiàn)方式所對應的技術(shù)效果可參見上述第一方面以及第一方面的任意一種實現(xiàn)方式所對應的技術(shù)效果,此處不再贅述。
63、第六方面,本技術(shù)實施例提供一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括計算機指令,當所述計算機指令被計算機或處理器執(zhí)行時,使得計算機或處理器執(zhí)行第一方面或第一方面的任意可能的實現(xiàn)方式中的場景音頻解碼方法。
64、第六方面以及第六方面的任意一種實現(xiàn)方式分別與第一方面以及第一方面的任意一種實現(xiàn)方式相對應。第六方面以及第六方面的任意一種實現(xiàn)方式所對應的技術(shù)效果可參見上述第一方面以及第一方面的任意一種實現(xiàn)方式所對應的技術(shù)效果,此處不再贅述。