本發(fā)明涉及跨模態(tài)聲源定位,具體涉及一種基于殘差網(wǎng)絡(luò)的跨模態(tài)聲源定位方法。
背景技術(shù):
1、壓縮氣體運(yùn)輸管道通常處于復(fù)雜的環(huán)境中,會因為受到腐蝕、磨損、人為破壞等原因?qū)е鹿艿榔茡p,引起泄露,一旦氣體泄露不僅會造成資源的浪費(fèi),甚至?xí)?dǎo)致事故的發(fā)生,給工業(yè)生產(chǎn)帶來了極大的安全隱患。基于對壓縮氣體泄露特點(diǎn)的研究發(fā)現(xiàn),管道泄露氣體流過管道裂縫時,造成內(nèi)外壓力差,使空氣產(chǎn)生機(jī)械振動,形成頻率范圍20-50khz的超聲波信號,因此借助超聲波聲源定位技術(shù)定位管道泄露位置極具研究意義。
2、聲源定位技術(shù)主要分為基于聲信號分析的方法和基于深度學(xué)習(xí)的方法。其中,基于聲信號分析的方法包括時延估計定位法、可控波束形成定位法和高分辨率譜估計定位,這些方法往往都基于理想的背景模型中,在實際環(huán)境中難以實現(xiàn);隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(cnn)與循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)在聲源定位領(lǐng)域被廣泛使用,然而,cnn難以并行化計算,在大規(guī)模數(shù)據(jù)上的限制了訓(xùn)練和推理效率,rnn在處理長期依賴關(guān)系時存在困難,同時在處理噪聲和變化較大的聲音信號時表現(xiàn)較差。
技術(shù)實現(xiàn)思路
1、為了克服以上現(xiàn)有技術(shù)存在的問題,本發(fā)明的目的在于提供一種基于殘差網(wǎng)絡(luò)的跨模態(tài)聲源定位方法,該方法利用超聲波的高頻特性實現(xiàn)管道泄露位置的空間定位;利用干凈的管道泄露聲音和噪聲數(shù)據(jù)集訓(xùn)練聲音增強(qiáng)模型,用于在高噪聲環(huán)境下提取純凈的音頻數(shù)據(jù)信息,送入結(jié)合殘差模塊和多通道注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)中,得到聲源估計坐標(biāo)圖像,同時利用紅外熱像儀拍攝現(xiàn)場熱圖像,通過區(qū)域生長方法分割出圖像中的低溫區(qū)域,最后,通過定義由音頻引導(dǎo)的注意力函數(shù)融合熱圖像和聲源估計坐標(biāo)圖像實現(xiàn)聲源的跨模態(tài)定位。
2、為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
3、一種基于殘差網(wǎng)絡(luò)的跨模態(tài)聲源定位方法,包括以下步驟;
4、步驟1:由麥克風(fēng)陣列板和紅外熱像儀采集管道泄露音頻數(shù)據(jù)與現(xiàn)場熱圖像,再由麥克風(fēng)陣列單獨(dú)采集背景噪聲數(shù)據(jù)合成含噪音頻,用于訓(xùn)練聲音增強(qiáng)網(wǎng)絡(luò);
5、步驟2:對含噪音頻數(shù)據(jù)進(jìn)行預(yù)處理,通過短時傅里葉變換將音頻數(shù)據(jù)由時域向頻域轉(zhuǎn)換,為音頻增強(qiáng)提供原始輸入;
6、步驟3:利用基于卷積神經(jīng)網(wǎng)絡(luò)的聲音增強(qiáng)方法去除與管道泄露聲不相關(guān)的噪聲,提取純凈的音頻數(shù)據(jù)信息;
7、步驟4:將增強(qiáng)后純凈的音頻數(shù)據(jù)信息輸入由2d卷積與殘差模塊組成的特征提取網(wǎng)絡(luò)提取特征,為避免過程中出現(xiàn)過擬合的情況,引入殘差模塊來提取高層次的特征,將高層次的特征輸入多通道注意力模塊,得到聲源坐標(biāo)估計圖像;
8、步驟5:利用區(qū)域生長方法將采集的現(xiàn)場熱圖像分割,得到現(xiàn)場低溫位置的生態(tài)學(xué)區(qū)域;
9、步驟6:將聲源坐標(biāo)估計圖像與分割完成的熱圖像輸入由聲音引導(dǎo)的注意力模塊進(jìn)行融合,最終實現(xiàn)聲源跨模態(tài)定位。
10、所述步驟1中麥克風(fēng)陣列板由64個數(shù)字微機(jī)電系統(tǒng)麥克風(fēng)陣元組成,陣元間距為d,呈螺旋形排列,紅外熱像儀位于多通道麥克風(fēng)陣元中心,負(fù)責(zé)拍攝現(xiàn)場熱圖像。
11、所述步驟1包括以下子步驟:
12、步驟1.1:麥克風(fēng)陣列板與紅外熱像儀結(jié)合垂直地面擺放,采集干凈的管道泄露音頻和噪聲數(shù)據(jù)集;
13、步驟1.2:利用混合技術(shù)合成干凈音頻和噪聲數(shù)據(jù)集,進(jìn)行音量調(diào)節(jié)、均衡調(diào)節(jié)和空間處理,音頻數(shù)據(jù)表達(dá)式為:
14、x(t)=as(t)+n(t)
15、其中,s(t)是干凈的管道泄露音頻,n(t)是噪聲,a是音頻合成過程中使用的權(quán)值向量。
16、所述步驟2具體包括以下子步驟:
17、步驟2.1:利用分幀操作將音頻數(shù)據(jù)切割成多段短時音頻,使信號達(dá)到短時平穩(wěn)狀態(tài),分幀后的幀數(shù):
18、nf=(x(t)-overlap)/inc
19、其中,overlap為重疊個數(shù)(每一幀長度-幀移長度),inc為幀移長度;
20、步驟2.2:對分幀后的音頻數(shù)據(jù)加漢寧窗;
21、
22、其中,n為窗口寬度;
23、步驟2.3:對加窗后的音頻數(shù)據(jù)進(jìn)行傅里葉變換,得到頻譜,音頻信號由時域轉(zhuǎn)換為頻域。
24、所述步驟3具體包括以下子步驟:
25、步驟3.1:把預(yù)處理后的音頻數(shù)據(jù)頻譜幀輸入到卷積去噪自編碼器,編碼器中的卷積層由一組濾波器組成,用于從輸入層中提取特征,并將特征映射施加非線性的relu單元作為激活層,然后經(jīng)過最大池化層對音頻的潛在表示進(jìn)行下采樣,得到音頻數(shù)據(jù)的低維特征;
26、步驟3.2:將3.1中得到的低維特征送入解碼器,解碼器部分由卷積層、激活層和上采樣層重復(fù)組成;上采樣層對前一層的特征圖進(jìn)行上采樣并生成高維的新特征圖,經(jīng)過逆短時傅里葉操作重建增強(qiáng)后的音頻數(shù)據(jù)。
27、所述步驟4具體包括以下子步驟:
28、步驟4.1:增強(qiáng)后的音頻數(shù)據(jù)首先提取包含豐富的頻域信息的廣義互相關(guān)相位變換特征(gcc-phat),將特征通過兩個二維卷積層和最大池化層;
29、步驟4.2:然后通過五個殘差塊,每個殘差塊由兩個一維卷積塊、一個3維卷積塊和relu函數(shù)組成;
30、步驟4.3:利用多通道注意力機(jī)制,放大有用的頻域特征,衰減無用的特征,實現(xiàn)通過較少的參數(shù)量獲得良好的效果;
31、首先,對步驟4.2輸出的深層特征進(jìn)行全局平均池化操作;然后,進(jìn)行一維卷積,并通過sigmoid激活函數(shù)獲得每個通道的權(quán)重w;最后,將權(quán)重乘以原始特征輸入的對應(yīng)元素;對于重要通道sigmoid激活函數(shù)輸出接近1,反之,不重要通道接近0,以此來有效的利用從殘差結(jié)構(gòu)中提取的信息;
32、步驟4.4:最后通過兩個雙向gru層和兩個全連接層得到doa估計at;
33、步驟4.5:最終得到聲源坐標(biāo)估計范圍圖a。
34、所述步驟5具體包括以下子步驟:
35、步驟5.1:壓縮氣體泄露時漏點(diǎn)處的局部氣體突然膨脹導(dǎo)致該區(qū)域溫度降低,由紅外熱像儀采集的熱圖像包含現(xiàn)場溫度數(shù)據(jù),首先根據(jù)實際場景確定泄露位置的平均溫度t,區(qū)域生長的溫度閾值n,則圖像分割的范圍為:
36、t=[t-n,t+n]
37、步驟5.2:在圖像坐標(biāo)形成陣列中以左上角為初始種子點(diǎn),找到其所有的連通分量,將每一個連通分量腐蝕成一個像素,判斷像素是否在閾值范圍內(nèi),是則標(biāo)記為2,否則標(biāo)記為1,判斷過的像素標(biāo)記為0;
38、步驟5.3:當(dāng)周邊的連通分量不滿足生長條件時停止生長;
39、步驟5.4:然后向未處理過的像素點(diǎn)延伸,找到下一個種子點(diǎn)繼續(xù)生長,直到所有圖像像素點(diǎn)判斷完成,得到分割后的圖像v。
40、所述步驟6中定義注意力函數(shù)f,將熱圖像v與聲源估計坐標(biāo)圖a輸入音頻引導(dǎo)的注意力函數(shù),得到由音頻信息引導(dǎo)的視覺結(jié)果,實現(xiàn)聲源的跨模態(tài)定位:
41、
42、其中,ωi是與音頻所關(guān)注的k個可視區(qū)域上的概率分布相對應(yīng)的關(guān)注權(quán)重向量。
43、本發(fā)明的有益效果:
44、面對實際應(yīng)用場景中高噪聲、低信噪比的情況,本發(fā)明利用編碼器-解碼器的聲音增強(qiáng)方法過濾與管道泄露聲音不相關(guān)的噪聲,得到干凈的音頻信號,降低了由于噪聲導(dǎo)致定位結(jié)果不準(zhǔn)確的影響。
45、其他的聲源定位方法卷積層太少無法提取高層特征,然而盲目的增加卷積層又會導(dǎo)致過擬合降低網(wǎng)絡(luò)的性能,因此,本發(fā)明利用殘差模塊直接關(guān)聯(lián)輸入與輸出,從而能達(dá)到增加網(wǎng)絡(luò)深度,提取深層特征的目的,特征提取后利用多通道注意力機(jī)制,放大有用的頻域特征,實現(xiàn)通過較少的參數(shù)量獲得良好的效果。
46、本發(fā)明利用管道泄露位置溫度降低的特性,采集現(xiàn)場熱圖像,融合熱圖像和聲源定位結(jié)果實現(xiàn)跨模態(tài)定位。