用于可聽化的早期反射模式生成概念的制作方法

文檔序號：39561836發(fā)布日期：2024-09-30 13:36閱讀：90來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本技術(shù)涉及用于可聽化的早期反射處理概念。房間脈沖響應(yīng)(rir)描述聲學(xué)環(huán)境(房間)中的聲源與接收方(即，收聽者)之間的關(guān)系。rir指定房間對時域中的單位脈沖的響應(yīng)，并且與頻域中的房間傳遞函數(shù)相對應(yīng)。rir由直接聲音路徑、早期反射(er)和擴散性后期混響組成。在用于虛擬和增強現(xiàn)實(vr/ar)應(yīng)用的雙耳(或揚聲器)渲染中，來自特定源和收聽者地點的房間脈沖響應(yīng)可能顯著地改變。在6自由度(6dof)vr/ar應(yīng)用中，收聽者通?？梢栽谡麄€場景內(nèi)自由地移動，從而產(chǎn)生永久性型改變的房間脈沖響應(yīng)。因此，考慮到墻壁的幾何形狀、遮擋物和其他效應(yīng)，必須花費大量的計算來確定從源到收聽者的各反射，以計算物理上準(zhǔn)確的反射模式。本發(fā)明的觀察結(jié)果是，不需要房間中的早期反射(er)模式的精確聲學(xué)再現(xiàn)來進行感知上有說服力的渲染，并且這可以以在很大程度上從房間的精確幾何細(xì)節(jié)抽象的方式來進行。這樣，可以節(jié)省很多計算。在反射模式必須從編碼器傳輸?shù)戒秩酒鞯那闆r下，與常規(guī)的基于幾何形狀的渲染中的現(xiàn)有技術(shù)相比，可以節(jié)省與根據(jù)收聽者位置高效地計算反射相關(guān)聯(lián)的輔助信息的相當(dāng)大的一部分。文獻[1]涉及用更一般的簡單er模式來替代精確計算的“真實”er。其想法是找到、描述和模擬描述大房間(例如，音樂廳)的舞臺上的小或大聲源(例如，管弦樂隊)的感知上正交的參數(shù)[2,3]，并且通過揚聲器設(shè)置(例如，立體聲)對其進行重放或通過耳機對其進行雙耳重放。作曲師或聲音工程師能夠使用這些參數(shù)(如源存在、源溫暖、源亮度、房間存在、運行混響、包絡(luò)和余響)來設(shè)置場景。spat軟件已長時間用于這種產(chǎn)生[4]。該方法也在isompeg-4標(biāo)準(zhǔn)化中采用[5]。在動態(tài)6dof環(huán)境中，房間的聲學(xué)描述(尺寸、rt60、…)可以變化相當(dāng)大的量。源和接收方位置完全自由，并且將被實時地計算以用于可聽化。高度依賴于這些改變的物理設(shè)置的感知參數(shù)不能被定義為常數(shù)，并且因此不適合于該任務(wù)。這里，本發(fā)明具有采用環(huán)境的僅幾個基本物理參數(shù)來選擇和調(diào)整簡單的基本er模式的新方法。這具有以下優(yōu)點：不需要特定的聲音工程背景來定義參數(shù)。參數(shù)直接來自物理模型。所使用的簡單er模式適應(yīng)于不同的房間大小和不同的rt60值。甚至對于室外環(huán)境，也定義簡單er模式，而在spat中情況并非如此。由于人類聽覺系統(tǒng)不能分析早期反射的精細(xì)結(jié)構(gòu)(例如，[6])，因此該方法相對于完全物理上正確的模擬的感知劣化受到限制。在以下的新發(fā)明的簡單er模式中，使用房間聲學(xué)參數(shù)(如rt60、預(yù)延遲時間、房間容積或房間尺寸、以及rt60的頻率依賴性那樣)。er模式被具體地定義為在直接聲音和后期混響之間產(chǎn)生平滑過渡。er模式應(yīng)是頻率中性的，并且與至墻壁的接近度以及源和接收方的開口無關(guān)。想法是產(chǎn)生收聽者的看似合理且有說服力的感知，從而適合整個房間聲學(xué)參數(shù)。這對于大多數(shù)情況是足夠的，因為收聽者不具有與“真實”物理上精確的er的直接比較可能性。尤其是在如實時聽覺虛擬環(huán)境和增強現(xiàn)實那樣的應(yīng)用中，可以避免尤其是具有可視性檢查的er的計算消耗的精確幾何計算。根據(jù)源和收聽者的精確(和時變)地點，“真實”er的精確計算有時也是困難的并且對于通過使er出現(xiàn)和消失來產(chǎn)生偽影是敏感的。這可以通過使用恒定的er模式(其已在進入場景時被計算一次)來避免，或者通過從一個聲學(xué)環(huán)境移動到由不同聲學(xué)參數(shù)定義的另一環(huán)境來避免。本發(fā)明利用編碼器-位流-渲染器情景。在一個情況(a)中，可以利用僅在渲染器中可用的房間聲學(xué)參數(shù)來計算默認(rèn)的簡單er模式。這些參數(shù)通過源-收聽者距離以及它們之間的方位角來實時地調(diào)整。在情況(b)中，在編碼器中以更高級的方式預(yù)分析場景的幾何形狀。然后，在編碼器中預(yù)計算幾個er的簡單er模式，并將該簡單er模式在位流中傳輸?shù)戒秩酒?。此處，以與情況(a)中相同的方式通過收聽者距離和角度(或在渲染時可用的其他信息)來調(diào)整簡單er模式。這兩個情況對于開放的不過時的方法給予了完全靈活性，其中進一步的分析知識可以稍后被并入到編碼器中。動機房間脈沖響應(yīng)(rir)描述聲學(xué)環(huán)境(房間)中的聲源與接收方(收聽者)之間的關(guān)系，并且指定房間對單位脈沖的響應(yīng)(例如，參見圖21)。rir由直接聲音路徑、早期反射(er)和擴散性后期聲音部分組成。圖21示出利用聲學(xué)房間模擬程序raven生成的具有二階er的單音rir的示例[7]。尤其是在由許多表面限定的復(fù)雜物理環(huán)境/房間中，具有必要的可視性檢查(“該源是否在到收聽者的直接視線中？”)的幾何正確的er的計算是非常耗時的。另一方面，已知人類聽覺感知抑制了關(guān)于直接聲音的與er有關(guān)的許多細(xì)節(jié)(第一波前定律、優(yōu)先效應(yīng)、場景分析、[8,9])，并且因此脈沖響應(yīng)的er部分的確切模型化在許多情況下對于實現(xiàn)有說服力的渲染質(zhì)量不是必要的(例如，[6])。聽覺系統(tǒng)使用er來確定或細(xì)化數(shù)個感知屬性。在這些感知屬性中有：-源相對于接收方的位置-源-接收方距離-聽覺源寬度(asw)-邊界的電平(level)和頻率依賴性吸收[10]-與接近邊界的接近度

背景技術(shù)：

1、存在已知簡化er計算的數(shù)個方法。第一方法是僅完全避免er的計算，即在無模擬er的情況下渲染聲音，即僅渲染直接聲音和后期混響(參見圖22)。后期混響在所謂的預(yù)延遲時間開始。圖22示出具有直接聲音和在預(yù)延遲時間0.13s開始的后期混響的rir(無er)。

2、下一可能性是僅計算幾何上精確的一階反射(參見圖23)。在鞋盒形房間中，這將er的數(shù)量從約27減少到6。圖23示出具有一階反射和后期混響的rir(左)、俯視圖(右)。正方形(紅色)是聲源，圓形(藍(lán)色)是接收方，連接圓形和正方形的線(紅色)是直接聲音，從圓形出來的更多線(藍(lán)色)是反射，長度與對數(shù)電平成比例。

3、下一可能性是與直接聲音并排的僅兩個er(參見圖24)。從音樂廳聲學(xué)已知側(cè)反射對asw的影響[11]。注意，這與真實幾何模擬相比，計算起來非常簡單。圖24示出具有與直接聲音并排的兩個反射的rir(左)、俯視圖(右)。

4、在下一模式中，兩個側(cè)反射被到直接聲音的各側(cè)的4次反射以及[±45°和±135°]處的四個固定源位置獨立反射序列(各自由4次反射組成)替代(參見圖25)。該模式受到spat算法[1,5]的啟發(fā)，但是該模式不實現(xiàn)所有細(xì)節(jié)，尤其是不實現(xiàn)所有輸入?yún)?shù)的效應(yīng)。該模式所用的參數(shù)被定義為具體地產(chǎn)生如asw那樣的感知接收方屬性。除rt60之外，沒有房間聲學(xué)性質(zhì)用于該模式。圖25示出具有“spat”模式的rir(左)、俯視圖(右)。十字形(綠色和藍(lán)色)是er。

5、前面所述的方法被設(shè)計成使得定義er模式的輸入?yún)?shù)是感知參數(shù)。這些感知參數(shù)應(yīng)描述由er引起的收聽者的感知。缺點是該方法僅模糊地適應(yīng)于房間相關(guān)參數(shù)。聲音工程知識和經(jīng)驗對于設(shè)置感知定義的參數(shù)(如源存在、源溫暖、源亮度、房間存在、運行混響、包絡(luò)和余響那樣)是必要的。這對于定義實時vr/ar系統(tǒng)的物理性質(zhì)并且不具有感知聲音工程體驗的設(shè)計者而言是明顯的劣勢。尤其對于vr應(yīng)用，虛擬物理空間的幾何形狀作為可視化處理的副產(chǎn)物通常是眾所周知的。此外，不存在利用spat算法已知的室外環(huán)境所用的er模式。

6、本發(fā)明的目的是通過明確地使用房間聲學(xué)和物理參數(shù)以定義er模式來避免現(xiàn)有技術(shù)的缺點。此外，不同模式是根據(jù)房間性質(zhì)定義的，并且甚至適合于室外環(huán)境(在室外環(huán)境中，幾何形狀的確切描述是困難的)。這些模式具有取決于房間大小或其他物理參數(shù)的不同數(shù)量的er。

7、新er模式的特征在于：

8、·與“真實”er相比的感知上看似合理的渲染

9、·與“真實”er計算相比的降低的計算復(fù)雜度

10、·取決于物理房間性質(zhì)的er模式的適應(yīng)

11、·不需要任何特定的聲音工程技能和經(jīng)驗來設(shè)置所需的參數(shù)

12、·用于室內(nèi)和室外的有區(qū)別的er模式

13、·在渲染器內(nèi)計算預(yù)定義模式的情況下，(對于包括位流的傳輸?shù)木幋a器/位流/渲染器情景)不需要附加輔助信息

14、·在編碼器中根據(jù)場景幾何形狀計算預(yù)定義模式的情況下，(對于包括位流的傳輸?shù)木幋a器/位流/渲染器情景)需要非常少的附加輔助信息。

15、這通過使用不取決于房間的精確幾何形狀的可參數(shù)化但固定的空間er模式來實現(xiàn)。在本發(fā)明的優(yōu)選實施例中，模式也不取決于房間中的收聽者位置。代替地，使用僅一個(或幾個)全局特性參數(shù)來配置er模式。這樣，可以極其高效地渲染模式。

16、在以下的新發(fā)明的er模式中，具體地使用房間聲學(xué)參數(shù)(如rt60、預(yù)延遲時間、房間尺寸或房間容積、rt60對模式配置的頻率依賴性那樣)。er模式以在直接聲音和后期混響之間產(chǎn)生(時間上)平滑過渡的方式來定義。er模式應(yīng)是中性音色。er模式取決于房間容積和表面。er模式不取決于房間中的源和接收方的位置。

17、本發(fā)明的目的是產(chǎn)生收聽者的似合理且有說服力的感知，從而適合整個房間聲學(xué)參數(shù)。這對于大多數(shù)使用情況是足夠的，尤其是由于收聽者不具有與“真實”物理上正確的er的渲染進行直接比較的可能性。

技術(shù)實現(xiàn)思路

1、根據(jù)本發(fā)明的第一方面，本技術(shù)的發(fā)明人意識到，在嘗試使用音頻信號的早期反射(er)渲染時遇到的一個問題源于以下事實：早期反射取決于源位置和收聽者位置之間的關(guān)系。發(fā)明人發(fā)現(xiàn)，可以在無例如地板反射的情況下考慮源位置獨立的er模式；使得er渲染變得更容易，同時渲染結(jié)果仍很好。用于渲染的房間脈沖響應(yīng)的早期反射部分由早期反射模式排他地確定。對于房間脈沖響應(yīng)的早期反射部分，不考慮聲源和收聽者之間的空間關(guān)系。此外，早期反射模式中的早期反射位置相對于收聽者頭部朝向的變化是不變的。這基于以下發(fā)現(xiàn)：不論收聽者看向聲源還是任何其他方向，都可以使用相同的er模式來確定房間脈沖響應(yīng)的早期反射部分。

2、因此，根據(jù)本技術(shù)的第一方面，用于聲音渲染的設(shè)備被配置為接收與收聽者位置和聲源位置有關(guān)的信息。該設(shè)備被配置為使用房間脈沖響應(yīng)來渲染聲源的音頻信號，所述房間脈沖響應(yīng)的早期反射部分由早期反射模式排他地確定。早期反射模式指示群集，例如，群集應(yīng)表示位置的集合，連同從連接位置的線之間的角度方面定義位置的相互放置；同義術(shù)語應(yīng)是早期反射位置的“模式”。早期反射模式以如下的方式定位在收聽者位置處，使得：早期反射位置圍繞收聽者位置并且以相對于收聽者位置的角度方向進行定位，其中所述角度方向相對于收聽者頭部朝向的變化是不變的，即，群集平移地放置在收聽者位置處。

3、根據(jù)本發(fā)明的第二方面，本技術(shù)的發(fā)明人意識到，在嘗試使用音頻信號的早期反射(er)渲染時遇到的一個問題源于以下事實：針對室外環(huán)境的早期反射模式是高度獨立的并且取決于場景的物理設(shè)置。發(fā)明人發(fā)現(xiàn)，使用環(huán)境的適度分析所生成的er模式可以得到聲學(xué)上有說服力但計算上適度的er渲染結(jié)果。

4、因此，根據(jù)本技術(shù)的第二方面，用于確定用于聲音再現(xiàn)的早期反射模式的設(shè)備被配置為：通過在一個或多于一個分析位置中的各分析位置處進行以下操作來進行聲學(xué)環(huán)境的幾何分析：確定函數(shù)，該函數(shù)針對距各個分析位置的不同距離中的各距離，指示表示早期反射貢獻的值；以及針對一個或多于一個極大值檢查該函數(shù)或從該函數(shù)導(dǎo)出的另一函數(shù)，以導(dǎo)出一個或多于一個控制參數(shù)。另外，該設(shè)備被配置為通過使用一個或多于一個控制參數(shù)放置早期反射位置來確定早期反射模式，該早期反射模式指示早期反射位置的群集。

5、根據(jù)本發(fā)明的第三方面，本技術(shù)的發(fā)明人意識到，在嘗試使用音頻信號的早期反射(er)渲染時遇到的一個問題源于以下事實：用于渲染的音頻場景的早期反射模式的傳輸可能導(dǎo)致高信令成本。發(fā)明人發(fā)現(xiàn)，可以通過使用位流提示來生成er模式，從而得到聲學(xué)上有說服力但計算上適度的er渲染結(jié)果。通過僅使用位流中的提示，由于不需要傳輸完整的er模式，因此可以降低信令成本。

6、因此，根據(jù)本技術(shù)的第三方面，用于聲音渲染的設(shè)備被配置為接收與收聽者位置和聲源位置有關(guān)的第一信息。該設(shè)備被配置為接收包括例如定位在聲源位置處的聲源的音頻信號的表示以及一個或多于一個早期反射模式參數(shù)的位流，并從位流中讀取該音頻信號的表示以及該一個或多于一個早期反射模式參數(shù)。例如，位流是音頻位流(在該位流的頭部或元數(shù)據(jù)字段內(nèi)部具有早期反射參數(shù))、或者文件格式流(在該文件格式流的分組和該文件格式流的軌道(包括表示音頻信號的音頻位流)內(nèi)部具有早期反射參數(shù))。另外，該設(shè)備被配置為根據(jù)一個或多于一個早期反射模式參數(shù)來確定指示早期反射位置的群集的早期反射模式。此外，該設(shè)備被配置為使用房間脈沖響應(yīng)來渲染聲源的音頻信號，所述房間脈沖響應(yīng)的早期反射部分由早期反射模式確定。早期反射模式指示群集，例如，群集應(yīng)表示位置的集合，連同從連接位置的線之間的角度方面定義位置的相互放置；同義術(shù)語應(yīng)是早期反射位置的“模式”。早期反射模式以如下的方式定位在收聽者位置處，使得：早期反射位置圍繞收聽者位置并且以相對于收聽者位置的角度方向進行定位，其中所述角度方向相對于收聽者頭部朝向的變化是不變的，即，群集平移地放置在收聽者位置處。

7、根據(jù)本發(fā)明的第四方面，本技術(shù)的發(fā)明人意識到，在嘗試使用音頻信號的早期反射(er)渲染時遇到的一個問題源于以下事實：考慮到墻壁的幾何形狀、遮擋物和其他效應(yīng)，必須花費大量的計算來確定從源到收聽者的各反射，以計算物理上準(zhǔn)確的反射模式。發(fā)明人發(fā)現(xiàn)，簡單的房間聲學(xué)參數(shù)(如房間尺寸、房間容積或預(yù)延遲那樣)可以用于確定早期反射模式內(nèi)的早期反射位置的數(shù)量。由于可以根據(jù)房間聲學(xué)參數(shù)來近似早期反射，因此不需要分析場景的真實早期反射。發(fā)明人發(fā)現(xiàn)，通過er數(shù)量對房間聲學(xué)參數(shù)的依賴性的er模式生成得到聲學(xué)上有說服力但計算上適度的er渲染結(jié)果。

8、因此，根據(jù)本技術(shù)的第四方面，用于確定用于聲音再現(xiàn)的早期反射模式的設(shè)備被配置為接收表示聲學(xué)環(huán)境的聲學(xué)特性的至少一個房間聲學(xué)參數(shù)。該設(shè)備被配置為以如下的方式確定指示早期反射位置的群集的早期反射模式，使得：多個早期反射位置取決于至少一個房間聲學(xué)參數(shù)。

9、根據(jù)本發(fā)明的第五方面，本技術(shù)的發(fā)明人意識到，在嘗試使用音頻信號的早期反射(er)渲染時遇到的一個問題源于以下事實：各源與不同的早期反射模式相關(guān)聯(lián)。發(fā)明人發(fā)現(xiàn)，不需要針對不同源的信號使用不同的er模式。這是基于如下的想法：可以根據(jù)源收聽者關(guān)系對信號進行加權(quán)和求和，使得僅基于er模式來渲染音頻信號的加權(quán)和。發(fā)明人發(fā)現(xiàn)，通過將er模式用于多于一個聲源的er再現(xiàn)得到聲學(xué)上有說服力但計算上適度的er渲染結(jié)果。

10、因此，根據(jù)本技術(shù)的第五方面，用于聲音渲染的設(shè)備被配置為接收與收聽者位置、第一聲源位置和第二聲源位置有關(guān)的信息。該設(shè)備被配置為使用房間脈沖響應(yīng)來渲染兩個聲源的音頻信號，所述房間脈沖響應(yīng)的早期反射部分由早期反射模式確定。早期反射模式指示群集，例如，群集應(yīng)表示位置的集合，連同從連接位置的線之間的角度方面定義位置的相互放置；同義術(shù)語應(yīng)是早期反射位置的“模式”。早期反射模式以如下的方式定位在收聽者位置處，使得：早期反射位置圍繞收聽者位置并且以相對于收聽者位置的角度方向進行定位，其中所述角度方向相對于收聽者頭部朝向的變化是不變的，即，群集平移地放置在收聽者位置處。該設(shè)備被配置為通過形成定位在第一聲源位置處的第一聲源的第一音頻信號和定位在第二聲源位置處的第二聲源的第二音頻信號的加權(quán)和來渲染兩個聲源的音頻信號。如果第一聲源位置和收聽者位置之間的第一距離小于第二聲源位置和收聽者位置之間的第二距離，則加權(quán)和以第一音頻信號的權(quán)重多于第二音頻信號的權(quán)重的方式進行加權(quán)，并且如果第一距離大于第二距離，則加權(quán)和以第二音頻信號的權(quán)重多于第一音頻信號的權(quán)重的方式進行加權(quán)。另外，該設(shè)備被配置為通過從早期反射位置渲染加權(quán)和以生成與房間脈沖響應(yīng)的早期反射部分相關(guān)的早期反射貢獻揚聲器信號，來渲染兩個聲源的音頻信號。

11、根據(jù)本發(fā)明的第六方面，本技術(shù)的發(fā)明人意識到，在嘗試使用音頻信號的早期反射(er)渲染時遇到的一個問題源于以下事實：考慮到墻壁的幾何形狀、遮擋物和其他效應(yīng)，必須花費大量的計算來確定從源到收聽者的各反射，以計算物理上準(zhǔn)確的反射模式。發(fā)明人發(fā)現(xiàn)，簡單的房間聲學(xué)參數(shù)(如房間尺寸、房間容積或預(yù)延遲那樣)可以用于對定義早期反射的位置的函數(shù)進行參數(shù)化。由于可以根據(jù)房間聲學(xué)參數(shù)來近似早期反射，因此不需要分析場景的真實早期反射。此外，發(fā)現(xiàn)了螺旋函數(shù)提供早期反射位置的良好分布。發(fā)明人發(fā)現(xiàn)，使用一個或多于一個螺旋函數(shù)的er模式生成得到感知上有說服力但計算上適度的er渲染結(jié)果。

12、因此，根據(jù)本技術(shù)的第六方面，用于確定用于聲音再現(xiàn)的早期反射模式的設(shè)備被配置為接收表示聲學(xué)環(huán)境的聲學(xué)特性的至少一個房間聲學(xué)參數(shù)，并通過對以收聽者位置為中心的一個或多于一個螺旋函數(shù)進行參數(shù)化、并且使用一個或多于一個螺旋函數(shù)放置早期反射位置來確定指示早期反射位置的群集的早期反射模式。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：A·西爾茲勒,J·赫爾,D·羅桑伯格,J·保盧斯,C·博爾斯,A·阿達(dá)米
技術(shù)所有人：弗勞恩霍夫應(yīng)用研究促進協(xié)會
我是此專利的發(fā)明人

上一篇：著色組合物的制作方法
上一篇：用于治療聽力疾病的4-苯基-四氫吡啶衍生物的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

早期反射相關(guān)技術(shù)

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

用于可聽化的早期反射模式生成概念的制作方法