一種基于殘差網(wǎng)絡(luò)的跨模態(tài)聲源定位方法

文檔序號：39709938發(fā)布日期：2024-10-22 12:55閱讀：2來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>測量裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及跨模態(tài)聲源定位，具體涉及一種基于殘差網(wǎng)絡(luò)的跨模態(tài)聲源定位方法。

背景技術(shù)：

1、壓縮氣體運(yùn)輸管道通常處于復(fù)雜的環(huán)境中，會因為受到腐蝕、磨損、人為破壞等原因?qū)е鹿艿榔茡p，引起泄露，一旦氣體泄露不僅會造成資源的浪費(fèi)，甚至?xí)?dǎo)致事故的發(fā)生，給工業(yè)生產(chǎn)帶來了極大的安全隱患。基于對壓縮氣體泄露特點(diǎn)的研究發(fā)現(xiàn)，管道泄露氣體流過管道裂縫時，造成內(nèi)外壓力差，使空氣產(chǎn)生機(jī)械振動，形成頻率范圍20-50khz的超聲波信號，因此借助超聲波聲源定位技術(shù)定位管道泄露位置極具研究意義。

2、聲源定位技術(shù)主要分為基于聲信號分析的方法和基于深度學(xué)習(xí)的方法。其中，基于聲信號分析的方法包括時延估計定位法、可控波束形成定位法和高分辨率譜估計定位，這些方法往往都基于理想的背景模型中，在實際環(huán)境中難以實現(xiàn)；隨著深度學(xué)習(xí)的發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)(cnn)與循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)在聲源定位領(lǐng)域被廣泛使用，然而，cnn難以并行化計算，在大規(guī)模數(shù)據(jù)上的限制了訓(xùn)練和推理效率，rnn在處理長期依賴關(guān)系時存在困難，同時在處理噪聲和變化較大的聲音信號時表現(xiàn)較差。

技術(shù)實現(xiàn)思路

1、為了克服以上現(xiàn)有技術(shù)存在的問題，本發(fā)明的目的在于提供一種基于殘差網(wǎng)絡(luò)的跨模態(tài)聲源定位方法，該方法利用超聲波的高頻特性實現(xiàn)管道泄露位置的空間定位；利用干凈的管道泄露聲音和噪聲數(shù)據(jù)集訓(xùn)練聲音增強(qiáng)模型，用于在高噪聲環(huán)境下提取純凈的音頻數(shù)據(jù)信息，送入結(jié)合殘差模塊和多通道注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)中，得到聲源估計坐標(biāo)圖像，同時利用紅外熱像儀拍攝現(xiàn)場熱圖像，通過區(qū)域生長方法分割出圖像中的低溫區(qū)域，最后，通過定義由音頻引導(dǎo)的注意力函數(shù)融合熱圖像和聲源估計坐標(biāo)圖像實現(xiàn)聲源的跨模態(tài)定位。

2、為了實現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案是：

3、一種基于殘差網(wǎng)絡(luò)的跨模態(tài)聲源定位方法，包括以下步驟；

4、步驟1：由麥克風(fēng)陣列板和紅外熱像儀采集管道泄露音頻數(shù)據(jù)與現(xiàn)場熱圖像，再由麥克風(fēng)陣列單獨(dú)采集背景噪聲數(shù)據(jù)合成含噪音頻，用于訓(xùn)練聲音增強(qiáng)網(wǎng)絡(luò)；

5、步驟2：對含噪音頻數(shù)據(jù)進(jìn)行預(yù)處理，通過短時傅里葉變換將音頻數(shù)據(jù)由時域向頻域轉(zhuǎn)換，為音頻增強(qiáng)提供原始輸入；

6、步驟3：利用基于卷積神經(jīng)網(wǎng)絡(luò)的聲音增強(qiáng)方法去除與管道泄露聲不相關(guān)的噪聲，提取純凈的音頻數(shù)據(jù)信息；

7、步驟4：將增強(qiáng)后純凈的音頻數(shù)據(jù)信息輸入由2d卷積與殘差模塊組成的特征提取網(wǎng)絡(luò)提取特征，為避免過程中出現(xiàn)過擬合的情況，引入殘差模塊來提取高層次的特征，將高層次的特征輸入多通道注意力模塊，得到聲源坐標(biāo)估計圖像；

8、步驟5：利用區(qū)域生長方法將采集的現(xiàn)場熱圖像分割，得到現(xiàn)場低溫位置的生態(tài)學(xué)區(qū)域；

9、步驟6：將聲源坐標(biāo)估計圖像與分割完成的熱圖像輸入由聲音引導(dǎo)的注意力模塊進(jìn)行融合，最終實現(xiàn)聲源跨模態(tài)定位。

10、所述步驟1中麥克風(fēng)陣列板由64個數(shù)字微機(jī)電系統(tǒng)麥克風(fēng)陣元組成，陣元間距為d，呈螺旋形排列，紅外熱像儀位于多通道麥克風(fēng)陣元中心，負(fù)責(zé)拍攝現(xiàn)場熱圖像。

11、所述步驟1包括以下子步驟：

12、步驟1.1：麥克風(fēng)陣列板與紅外熱像儀結(jié)合垂直地面擺放，采集干凈的管道泄露音頻和噪聲數(shù)據(jù)集；

13、步驟1.2：利用混合技術(shù)合成干凈音頻和噪聲數(shù)據(jù)集，進(jìn)行音量調(diào)節(jié)、均衡調(diào)節(jié)和空間處理，音頻數(shù)據(jù)表達(dá)式為：

14、x(t)＝as(t)+n(t)

15、其中，s(t)是干凈的管道泄露音頻，n(t)是噪聲，a是音頻合成過程中使用的權(quán)值向量。

16、所述步驟2具體包括以下子步驟：

17、步驟2.1：利用分幀操作將音頻數(shù)據(jù)切割成多段短時音頻，使信號達(dá)到短時平穩(wěn)狀態(tài)，分幀后的幀數(shù)：

18、nf＝(x(t)-overlap)/inc

19、其中，overlap為重疊個數(shù)(每一幀長度-幀移長度)，inc為幀移長度；

20、步驟2.2：對分幀后的音頻數(shù)據(jù)加漢寧窗；

21、

22、其中，n為窗口寬度；

23、步驟2.3:對加窗后的音頻數(shù)據(jù)進(jìn)行傅里葉變換，得到頻譜，音頻信號由時域轉(zhuǎn)換為頻域。

24、所述步驟3具體包括以下子步驟：

25、步驟3.1：把預(yù)處理后的音頻數(shù)據(jù)頻譜幀輸入到卷積去噪自編碼器，編碼器中的卷積層由一組濾波器組成，用于從輸入層中提取特征，并將特征映射施加非線性的relu單元作為激活層，然后經(jīng)過最大池化層對音頻的潛在表示進(jìn)行下采樣，得到音頻數(shù)據(jù)的低維特征；

26、步驟3.2：將3.1中得到的低維特征送入解碼器，解碼器部分由卷積層、激活層和上采樣層重復(fù)組成；上采樣層對前一層的特征圖進(jìn)行上采樣并生成高維的新特征圖，經(jīng)過逆短時傅里葉操作重建增強(qiáng)后的音頻數(shù)據(jù)。

27、所述步驟4具體包括以下子步驟：

28、步驟4.1：增強(qiáng)后的音頻數(shù)據(jù)首先提取包含豐富的頻域信息的廣義互相關(guān)相位變換特征(gcc-phat)，將特征通過兩個二維卷積層和最大池化層；

29、步驟4.2：然后通過五個殘差塊，每個殘差塊由兩個一維卷積塊、一個3維卷積塊和relu函數(shù)組成；

30、步驟4.3：利用多通道注意力機(jī)制，放大有用的頻域特征，衰減無用的特征，實現(xiàn)通過較少的參數(shù)量獲得良好的效果；

31、首先，對步驟4.2輸出的深層特征進(jìn)行全局平均池化操作；然后，進(jìn)行一維卷積，并通過sigmoid激活函數(shù)獲得每個通道的權(quán)重w；最后，將權(quán)重乘以原始特征輸入的對應(yīng)元素；對于重要通道sigmoid激活函數(shù)輸出接近1，反之，不重要通道接近0，以此來有效的利用從殘差結(jié)構(gòu)中提取的信息；

32、步驟4.4：最后通過兩個雙向gru層和兩個全連接層得到doa估計at；

33、步驟4.5：最終得到聲源坐標(biāo)估計范圍圖a。

34、所述步驟5具體包括以下子步驟：

35、步驟5.1：壓縮氣體泄露時漏點(diǎn)處的局部氣體突然膨脹導(dǎo)致該區(qū)域溫度降低，由紅外熱像儀采集的熱圖像包含現(xiàn)場溫度數(shù)據(jù)，首先根據(jù)實際場景確定泄露位置的平均溫度t，區(qū)域生長的溫度閾值n，則圖像分割的范圍為：

36、t＝[t-n,t+n]

37、步驟5.2：在圖像坐標(biāo)形成陣列中以左上角為初始種子點(diǎn)，找到其所有的連通分量，將每一個連通分量腐蝕成一個像素，判斷像素是否在閾值范圍內(nèi)，是則標(biāo)記為2，否則標(biāo)記為1，判斷過的像素標(biāo)記為0；

38、步驟5.3：當(dāng)周邊的連通分量不滿足生長條件時停止生長；

39、步驟5.4：然后向未處理過的像素點(diǎn)延伸，找到下一個種子點(diǎn)繼續(xù)生長，直到所有圖像像素點(diǎn)判斷完成，得到分割后的圖像v。

40、所述步驟6中定義注意力函數(shù)f，將熱圖像v與聲源估計坐標(biāo)圖a輸入音頻引導(dǎo)的注意力函數(shù)，得到由音頻信息引導(dǎo)的視覺結(jié)果，實現(xiàn)聲源的跨模態(tài)定位：

41、

42、其中，ωi是與音頻所關(guān)注的k個可視區(qū)域上的概率分布相對應(yīng)的關(guān)注權(quán)重向量。

43、本發(fā)明的有益效果：

44、面對實際應(yīng)用場景中高噪聲、低信噪比的情況，本發(fā)明利用編碼器-解碼器的聲音增強(qiáng)方法過濾與管道泄露聲音不相關(guān)的噪聲，得到干凈的音頻信號，降低了由于噪聲導(dǎo)致定位結(jié)果不準(zhǔn)確的影響。

45、其他的聲源定位方法卷積層太少無法提取高層特征，然而盲目的增加卷積層又會導(dǎo)致過擬合降低網(wǎng)絡(luò)的性能，因此，本發(fā)明利用殘差模塊直接關(guān)聯(lián)輸入與輸出，從而能達(dá)到增加網(wǎng)絡(luò)深度，提取深層特征的目的，特征提取后利用多通道注意力機(jī)制，放大有用的頻域特征，實現(xiàn)通過較少的參數(shù)量獲得良好的效果。

46、本發(fā)明利用管道泄露位置溫度降低的特性，采集現(xiàn)場熱圖像，融合熱圖像和聲源定位結(jié)果實現(xiàn)跨模態(tài)定位。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馬宗方,扶海萍,張國飛,宋琳
技術(shù)所有人：西安建筑科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、邢老師：1.機(jī)械設(shè)計及理論 2.生物醫(yī)學(xué)材料及器械 3.聲發(fā)射檢測技術(shù)。
2、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
3、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
4、張老師：1.機(jī)械設(shè)計的應(yīng)力分析、強(qiáng)度校核的計算機(jī)仿真 2.生物反應(yīng)器研制 3.生物力學(xué)
5、趙老師：檢測與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于殘差網(wǎng)絡(luò)的跨模態(tài)聲源定位方法