本發(fā)明涉及空間天氣預(yù)報(bào),具體指一種基于深度學(xué)習(xí)的superdarn雷達(dá)目標(biāo)回波聚類方法。
背景技術(shù):
1、超級雙子極光雷達(dá)觀測網(wǎng)(super?dual?auroral?radar?network,superdarn)是由40部以上高頻相干散射雷達(dá)組成的國際科學(xué)觀測雷達(dá)網(wǎng),其視場覆蓋了南北半球大部分的極區(qū)電離層和部分中緯度電離層,是研究地球磁層、電離層和中性大氣動(dòng)力學(xué)過程最成功的工具之一。
2、通常情況下,superdarn雷達(dá)目標(biāo)回波大致可分為四種:電離層等離子體不規(guī)則反射引起的電離層回波,地面/海面反射引起的地面/海面回波,流星進(jìn)入地球大氣層時(shí)留下的流星軌跡反射引起的流星余跡回波,夏季高緯度中層溫度極低區(qū)域的極區(qū)中層夏季回波。每種回波都有其各自的用途,其中電離層回波可用于分析等離子體對流;地面/海面回波通常用于研究電離層動(dòng)力學(xué)(例如行進(jìn)電離層擾動(dòng)),還可用于估算電離層的臨界頻率;極區(qū)中層夏季回波(pmse)與中層區(qū)域的帶電冰粒子有關(guān),因此其可以作為塵埃等離子體研究的基礎(chǔ)場景以及監(jiān)測極區(qū)中層云形成的有利工具;流星余跡回波可利用其多普勒速度反演中高層大氣中性風(fēng),有利于空氣動(dòng)力學(xué)的研究。
3、但是在實(shí)際情況中,雷達(dá)能夠檢測到的目標(biāo)的回波位置在距離較大時(shí)會(huì)產(chǎn)生很大的誤差,從而混淆回波的來源。回波的混淆可能會(huì)導(dǎo)致電離層不規(guī)則體位置的不準(zhǔn)確和電離層對流的扭曲。因此,對superdarn目標(biāo)的后向散射回波進(jìn)行有效聚類,以獲得清晰準(zhǔn)確的回波類型是非常必要的,這對人們利用各種回波開展其特定的科學(xué)目的有重要意義。
4、針對混合的回波數(shù)據(jù)集,有一種稱為聚類的機(jī)器學(xué)習(xí)算法,能根據(jù)數(shù)據(jù)樣本的潛在特征對其進(jìn)行分類,并根據(jù)其內(nèi)部相似性將混合樣本數(shù)據(jù)劃分為多個(gè)類別。為了使聚類后的結(jié)果盡可能準(zhǔn)確,選取的superdarn雷達(dá)回波特征要盡量全面,所以需要構(gòu)建的superdarn雷達(dá)回波特征數(shù)據(jù)集是高維度的數(shù)據(jù)集。面對高維數(shù)據(jù),由于因?yàn)楦呔S空間數(shù)據(jù)分布稀疏使得簇類結(jié)構(gòu)不清晰,還有大規(guī)模高維數(shù)據(jù)帶來的高時(shí)間和空間復(fù)雜度難題限制了算法的應(yīng)用,從而導(dǎo)致傳統(tǒng)聚類方法效果并不理想。
5、基于上述現(xiàn)狀及現(xiàn)有技術(shù)中superdarn雷達(dá)回波聚類算法中的不足,本發(fā)明提出了一種基于深度學(xué)習(xí)的superdarn雷達(dá)回波聚類方法。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明針對現(xiàn)有技術(shù)的不足,提出一種基于深度學(xué)習(xí)的superdarn雷達(dá)目標(biāo)回波聚類方法,將深度學(xué)習(xí)技術(shù)和superdarn雷達(dá)回波數(shù)據(jù)應(yīng)用到目標(biāo)聚類中,從而獲得更加干凈清晰的各種回波。
2、為了解決上述技術(shù)問題,本發(fā)明的技術(shù)方案為:
3、一種基于深度學(xué)習(xí)的superdarn雷達(dá)回波聚類方法,包括以下步驟:
4、步驟1:獲取superdarn雷達(dá)探測數(shù)據(jù)并對其進(jìn)行預(yù)處理,刪除其中的無效值和異常值,構(gòu)成superdarn雷達(dá)回波特征數(shù)據(jù)集;
5、步驟2:為消除不同特征之間量綱的影響,對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化;
6、步驟3:輸入到python中keras模塊搭建好的深度聚類模型中進(jìn)行訓(xùn)練,設(shè)置好參數(shù)后得到聚類結(jié)果;
7、步驟4:對深度聚類模型進(jìn)行聚類效果評估并與傳統(tǒng)判斷回波方法的結(jié)果進(jìn)行分析對比。
8、作為優(yōu)選,步驟1中的具體過程如下:
9、步驟1.1:首先挑選當(dāng)天superdarn雷達(dá)回波數(shù)較豐富的數(shù)據(jù)。其中數(shù)據(jù)中存在inf無效值和部分特征為0的數(shù)據(jù),這部分?jǐn)?shù)據(jù)不利于后續(xù)有效特征的提取,需要將這部分?jǐn)?shù)據(jù)刪除。
10、步驟1.2:使用lof算法對數(shù)據(jù)集進(jìn)行異常值檢測,然后將異常點(diǎn)做刪除處理,lof算法的公式如下:
11、reach_distk(o,p)=max{dk(o),d(o,p)}
12、
13、
14、式中reach_distk表示點(diǎn)的第k可達(dá)距離,dk(o)為點(diǎn)o的第k距離,d(o,p)為點(diǎn)o到點(diǎn)p的距離。此處點(diǎn)o是點(diǎn)p的k鄰域的點(diǎn),可達(dá)距離是p的鄰域點(diǎn)到p的可達(dá)距離。lrdk(p)表示點(diǎn)p的第k局部可達(dá)密度,即點(diǎn)p的第k距離鄰域內(nèi)的所有點(diǎn)到點(diǎn)p的平均第k可達(dá)距離的倒數(shù),nk(p)為p點(diǎn)的第k距離鄰域。lofk(p)表示數(shù)據(jù)點(diǎn)p的第k局部離群因子,意為將點(diǎn)p的nk(p)鄰域內(nèi)所有點(diǎn)的平均局部可達(dá)密度與點(diǎn)p的局部可達(dá)密度作比較。比值越趨近于1,說明該數(shù)據(jù)點(diǎn)越正常。
15、作為優(yōu)選,步驟2中的處理過程如下:
16、對數(shù)據(jù)中多普勒速度與譜寬的負(fù)值進(jìn)行絕對值操作,使用z-score標(biāo)準(zhǔn)化將數(shù)據(jù)標(biāo)準(zhǔn)化,以消除不同量綱之間的影響。其中z-score標(biāo)準(zhǔn)化公式為:
17、
18、其中,μ為特征xi的均值,σ為特征xi的標(biāo)準(zhǔn)差,xi為標(biāo)準(zhǔn)化之前的特征,yi為標(biāo)準(zhǔn)化后的特征。
19、作為優(yōu)選,步驟3當(dāng)中的深度聚類模型結(jié)構(gòu)和原理如下:模型采用基于變分自編碼器的深度聚類模型,其包括三個(gè)部分:編碼器,解碼器和聚類層。編碼器將輸入編碼為潛在空間中的均值分布和對數(shù)方差分布,然后從這兩個(gè)分布中采樣得到潛在變量z,但是由于采樣是不可導(dǎo)的,會(huì)導(dǎo)致在訓(xùn)練過程中無法進(jìn)行反向傳播,所以這里采用了重參數(shù)技巧,引入一個(gè)噪聲ε,將從n(μ,σ2)中采樣得到z的操作轉(zhuǎn)變?yōu)閺膎(0,i)中采樣一個(gè)ε,令z=μ+ε⊙σ,這樣梯度計(jì)算就可通過μ,σ進(jìn)行傳遞。為了保證模型的生成能力,變分自編碼器鼓勵(lì)潛在變量分布向標(biāo)準(zhǔn)正態(tài)分布看齊,這里用kl散度度量潛在空間中的分布與標(biāo)準(zhǔn)正態(tài)分布之間的差異。解碼器解碼還原數(shù)據(jù)并計(jì)算重構(gòu)損失,并通過反向傳播算法更新模型參數(shù)的權(quán)重和偏置,最小化重構(gòu)誤差。在進(jìn)行預(yù)訓(xùn)練后,對潛在特征空間進(jìn)行k-means聚類得到初始化聚類中心,然后采用學(xué)生t分布度量潛在特征與聚類中心之間的相似度qij,計(jì)算軟分配qij(相似度)與輔助分布pij(目標(biāo)分布)之間的kl散度作為聚類損失。最后將變分自編碼器的損失與聚類損失組合在一起,聯(lián)合訓(xùn)練深度網(wǎng)絡(luò)。
20、作為優(yōu)選,步驟4的具體過程如下:
21、使用輪廓系數(shù)silhouette?score,calinski-harabasz?index,davies-bouldinindex三種評價(jià)指標(biāo)對深度聚類模型的聚類效果進(jìn)行評估,其中,silhouette?score,calinski-harabasz?index,davies-bouldin?index公式如下:
22、
23、
24、
25、式中,a是與它同類別中其他樣本的平均距離,b是與它距離最近不同類別中樣本的平均距離,bk表示類間協(xié)方差矩陣,wk表示類別內(nèi)部數(shù)據(jù)協(xié)方差矩陣,n為訓(xùn)練樣本數(shù),k為類別個(gè)數(shù),tr為矩陣的跡,si表示第i個(gè)簇中所有樣本點(diǎn)到簇中心距離的平均值,又稱之為簇內(nèi)直徑,dij表示第i個(gè)簇與第j個(gè)簇之間的距離(即兩個(gè)簇中心之間的距離)。
26、本發(fā)明具有以下的特點(diǎn)和有益效果:
27、采用上述技術(shù)方案,本發(fā)明基于深度學(xué)習(xí)的superdarn雷達(dá)回波數(shù)據(jù)聚類方法,通過對數(shù)據(jù)的無效值作刪除,用lof算法進(jìn)行異常檢測,數(shù)據(jù)標(biāo)準(zhǔn)化等預(yù)處理操作,得到更加緊湊并適于進(jìn)行聚類任務(wù)的數(shù)據(jù)集,然后使用基于變分自動(dòng)編碼器的深度嵌入聚類方法,開創(chuàng)性地將深度學(xué)習(xí)技術(shù)用于提取superdarn雷達(dá)回波各特征的結(jié)構(gòu)信息,開創(chuàng)性地將深度學(xué)習(xí)技術(shù)和superdarn雷達(dá)回波數(shù)據(jù)應(yīng)用到目標(biāo)聚類中,從而獲得更加干凈清晰的各種回波,以完成對應(yīng)的科學(xué)任務(wù),如電離層回波便可以繪制更加準(zhǔn)確的電離層對流圖。