本發(fā)明涉及數(shù)據(jù)挖掘,尤其是一種基于社團中心性的關(guān)鍵指標分析方法。
背景技術(shù):
1、目前,調(diào)查問卷為了較高的信度與效度,設(shè)置的問題數(shù)量往往很多,但被試人員的專注力維持時間往往又相對有限,在長時間的問題回答中往往難以保障準確性;而且當問卷過長時,收集的時間與人力成本也更大。
2、因此,如何挖掘出關(guān)鍵性指標進行有效初篩是一個值得研究的問題,能夠在未來進行大規(guī)模問卷調(diào)查時提供一個低成本的可行方案。想要實現(xiàn)這樣的目標,就需要通過科學有效的定量方法進行關(guān)鍵指標識別,設(shè)計更為有效的初篩問卷,從而使得每個人填寫問卷的時間精力代價更低、問卷采集成本更低,實現(xiàn)更大規(guī)模的問卷調(diào)查。
3、現(xiàn)有的關(guān)鍵指標識別挖掘方法存在一些缺點,例如:
4、(1)主觀性和較少考慮聯(lián)系性:傳統(tǒng)的方法很多都是直接以內(nèi)容為基礎(chǔ)數(shù)據(jù)或者應(yīng)用人類的日常思維進行識別挖掘,這樣的分析比較依賴主觀的認知和經(jīng)驗,會影響準確性,存在一定局限性;
5、(2)數(shù)據(jù)的特殊性(高維小樣本):傳統(tǒng)的算法,比如深度學習的算法,在小樣本、高維度數(shù)據(jù)上無法有效進行模型訓練、難以取得良好效果;
6、(3)偏向性:傳統(tǒng)的方法很難注意到相關(guān)性很強的同類因素對模型的過度影響,會過重考慮同類型因素,忽略了影響因素的多樣性。
技術(shù)實現(xiàn)思路
1、為了克服上述現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供一種基于社團中心性的關(guān)鍵指標分析方法,使用社團劃分算法有助于對指標進行分類,以提取出調(diào)查問卷和測評表中的關(guān)鍵指標,從而對調(diào)查問卷和測評表進行簡化,對于大規(guī)模的問卷調(diào)查和測評更為便捷。
2、為實現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案,包括:
3、一種基于社團中心性的關(guān)鍵指標分析方法,包括以下步驟:
4、s1,數(shù)據(jù)預(yù)處理:對原始數(shù)據(jù)進行數(shù)據(jù)預(yù)處理,所述原始數(shù)據(jù)由已有的調(diào)查問卷和測評表構(gòu)成,調(diào)查問卷由不同的問題和對應(yīng)的問題回答構(gòu)成,測評表由不同的測評項和對應(yīng)的測評值構(gòu)成;預(yù)處理后的數(shù)據(jù)包括若干個不同的指標,每個指標對應(yīng)的有若干個不同人員的指標值;所述指標為問題或測評項;
5、s2,構(gòu)建相關(guān)關(guān)系網(wǎng)絡(luò):計算各指標之間的相關(guān)性,建立相關(guān)性系數(shù)矩陣;基于相關(guān)性系數(shù)矩陣,構(gòu)建相關(guān)關(guān)系網(wǎng)絡(luò);
6、s3,社團劃分:對相關(guān)關(guān)系網(wǎng)絡(luò)進行分析,對相關(guān)關(guān)系網(wǎng)絡(luò)中的節(jié)點即指標進行社團劃分;
7、s4,識別關(guān)鍵指標:選取各社團的中心節(jié)點,將社團的中心節(jié)點作為關(guān)鍵指標。
8、優(yōu)選的,步驟s1中,所述數(shù)據(jù)預(yù)處理包括:刪除無用或重復(fù)的指標,刪除缺失指標值過多的人員數(shù)據(jù),刪除指標值缺失過多的指標,采用眾數(shù)填補部分空缺的指標值,以及對所有的指標值進行歸一化處理。
9、優(yōu)選的,步驟s2中,計算兩兩指標間的pearson相關(guān)性系數(shù),建立相關(guān)性系數(shù)矩陣;基于相關(guān)性系數(shù)矩陣,并根據(jù)滲流理論,選取滲流相變的臨界點,構(gòu)建相關(guān)關(guān)系網(wǎng)絡(luò);其中,當?shù)诙筮B通子圖的節(jié)點數(shù)量達到極值后,且最大連通子圖的節(jié)點數(shù)量和網(wǎng)絡(luò)總節(jié)點數(shù)量的比值超過設(shè)定閾值時,將此時的最大連通子圖作為相關(guān)關(guān)系網(wǎng)絡(luò)。
10、優(yōu)選的,步驟s3中,采用louvain算法分析相關(guān)關(guān)系網(wǎng)絡(luò)的社團結(jié)構(gòu)性質(zhì);所述louvain算法的具體過程如下所示:
11、s31,將初始狀態(tài)下為每個節(jié)點作為一個社團,社團個數(shù)與節(jié)點個數(shù)相同;
12、s32,依次將每個節(jié)點與鄰居節(jié)點合并在一起,并計算模塊度增量是否大于0,若大于0,則將該節(jié)點放入該鄰居節(jié)點的所屬社團,否則保持原來的劃分不變,重復(fù)該步驟s32的過程,直至算法穩(wěn)定,即所有節(jié)點的所屬社團不再變化;
13、s33,將同一社團內(nèi)的節(jié)點合并為一個新的節(jié)點,即將同一社團內(nèi)的節(jié)點形成一個自環(huán),自環(huán)的權(quán)重為該社團內(nèi)部連邊的權(quán)重和的2倍,社團之間的權(quán)重為連接兩個社團的邊的權(quán)重和;
14、s34,重復(fù)步驟s32-s33,直至模塊度不再發(fā)生變化。
15、優(yōu)選的,所述模塊度q的計算方式為:
16、
17、其中,aij是節(jié)點i和節(jié)點j之間的邊權(quán)重,aij為節(jié)點i和節(jié)點j之間的pearson相關(guān)性系數(shù);ki和kj分別是節(jié)點i和節(jié)點j的度數(shù),即節(jié)點的連邊數(shù),m為圖中的連邊總數(shù),即為指示函數(shù),若節(jié)點i和節(jié)點j屬于同一社區(qū),則δ(ci,cj)=1,否則δ(ci,cj)=0
18、所述模塊度增量的計算方式為:
19、
20、其中,δqi→l為節(jié)點i移動到社團l中的模塊度增量,m為圖中的連邊總數(shù),為節(jié)點i與社團l的連邊數(shù),ki為節(jié)點i的連邊數(shù),為節(jié)點i移動到社團l后所形成的新社團的總度數(shù),總度數(shù)為社團中所有節(jié)點的度數(shù)即連邊數(shù)之和。
21、優(yōu)選的,步驟s4中,選取節(jié)點數(shù)量大于設(shè)定閾值的社團的中心節(jié)點作為關(guān)鍵指標。
22、優(yōu)選的,步驟s4中,根據(jù)節(jié)點的k-shell值選取各社團的中心節(jié)點;具體過程如下所示:
23、s41,從k=1開始,逐步移除社團內(nèi)的度數(shù)小于或等于當前k值的節(jié)點,直至社團內(nèi)的所有剩余節(jié)點的度數(shù)均大于k值;所述度數(shù)是節(jié)點在社團中的連邊數(shù);其中,將節(jié)點被移除時所對應(yīng)的k值作為該節(jié)點的k-shell值,即,在k=1時被移除的節(jié)點的k-shell值為1;
24、s42,將k值增加1,并按照步驟s41的方式,逐步移除社團內(nèi)的度數(shù)小于或等于當前k值的節(jié)點,直至社團內(nèi)的所有剩余節(jié)點的度數(shù)均大于k值;其中,節(jié)點被移除時所對應(yīng)的k值為該節(jié)點的k-shell值;
25、s43,重復(fù)步驟s42,直至社團內(nèi)的所有節(jié)點都被移除;
26、s44,選擇k-shell值最高的節(jié)點作為社團的中心節(jié)點。
27、優(yōu)選的,還包括步驟s5,對所選取的關(guān)鍵指標進行驗證:建立預(yù)測模型,將他評值作為模型的因變量,將關(guān)鍵指標作為自變量,將樣本數(shù)據(jù)劃分為訓練集和測試集,判斷預(yù)測模型的預(yù)測效果,預(yù)測效果越好,說明所選取的關(guān)鍵指標越準確;所述樣本數(shù)據(jù)包括:不同人員的關(guān)鍵指標的指標值,以及不同人員的他評值。
28、一種可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被執(zhí)行時實現(xiàn)上述的一種基于社團中心性的關(guān)鍵指標分析方法。
29、一種電子設(shè)備,其包括處理器、存儲器及存儲于所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述的一種基于社團中心性的關(guān)鍵指標分析方法。
30、本發(fā)明的優(yōu)點在于:
31、(1)本發(fā)明使用的復(fù)雜網(wǎng)絡(luò)中常用的社團劃分算法,有助于對一些指標進行有效的分類,以提取出所需要關(guān)鍵指標,從而對調(diào)查問卷和測評表進行簡化,對于大規(guī)模的問卷調(diào)查和測評更為便捷。
32、(2)多樣性:本發(fā)明在進行社團劃分之后選取每個社團的中心節(jié)點,避免了同一社團中相關(guān)性較高的同類指標對模型的過度影響,提高了影響因素的多樣性。
33、(3)準確性和全面性:本發(fā)明從關(guān)聯(lián)與交互的視角出發(fā),分析具體指標時看重其與其他指標之間的交互關(guān)系,跳出人的思維局限,發(fā)覺復(fù)雜系統(tǒng)的更多內(nèi)在聯(lián)系,找出更多的人們?nèi)粘K魂P(guān)注的點,提高全面性和準確性。
34、(4)適用于高維小樣本數(shù)據(jù):本發(fā)明在挖掘指標的內(nèi)在聯(lián)系時,一定程度上并不需要及其大量的數(shù)據(jù),避免了小樣本數(shù)據(jù)帶來的影響。