本技術(shù)涉及大數(shù)據(jù)分析處理,具體涉及一種大規(guī)模數(shù)據(jù)關(guān)鍵特征提取方法、電子設(shè)備及介質(zhì)。
背景技術(shù):
1、在醫(yī)藥領(lǐng)域,利用大數(shù)據(jù)平臺對醫(yī)藥數(shù)據(jù)進行特征分析,針對醫(yī)藥銷售數(shù)據(jù)的分析能夠理解市場動態(tài)、優(yōu)化庫存管理、制定銷售策略和改進藥品研發(fā)。但是單個地區(qū)的醫(yī)藥銷售情況,藥品的銷售渠道來源是多樣性的,由于部分人員購買藥品隨機性的影響,會造成銷售數(shù)據(jù)存在一定的波動,同時由于數(shù)據(jù)收集不全、記錄錯誤、數(shù)據(jù)缺失的因素導致藥品銷售數(shù)據(jù)出現(xiàn)異常值。
2、由于異常值銷售值的存在不利于對藥品銷售數(shù)據(jù)穩(wěn)定性的分析,容易導致藥品穩(wěn)定性的特征出現(xiàn)偏差。目前,通常在采用聚類算法排除醫(yī)藥銷售數(shù)據(jù)中的異常值,在對銷售數(shù)據(jù)進行聚類時,往往設(shè)置固定的篩選閾值;但是針對不同種類的藥品,其銷售量以及銷售的波動變換是不同的,因此容易造成異常值的漏檢或?qū)⒄2▌优卸楫惓V档恼`檢,降低了藥品銷售數(shù)據(jù)穩(wěn)定性特征提取的準確度。
技術(shù)實現(xiàn)思路
1、為了解決上述技術(shù)問題,本技術(shù)提供一種大規(guī)模數(shù)據(jù)關(guān)鍵特征提取方法,以解決現(xiàn)有的問題。
2、本技術(shù)的一種大規(guī)模數(shù)據(jù)關(guān)鍵特征提取方法采用如下技術(shù)方案:
3、第一方面,本技術(shù)一個實施例提供了一種大規(guī)模數(shù)據(jù)關(guān)鍵特征提取方法,該方法包括以下步驟:
4、采集目標月份每個渠道下各類藥品的日銷售量;
5、根據(jù)各類藥品在所有渠道下的日銷售量的數(shù)值分布情況,得到各類藥品的藥品銷量波動程度;獲取目標月份的所有處方單;根據(jù)各類藥物與其他各類藥物在處方單中的共現(xiàn)概率,獲得各類藥物的關(guān)聯(lián)藥物;
6、根據(jù)每類藥物與其各關(guān)聯(lián)藥物的所有日銷售量之間的變化差異以及藥品銷量波動程度差異,計算每類藥物與其各關(guān)聯(lián)藥物之間的同步變化差異權(quán)重;根據(jù)各類藥物其各關(guān)聯(lián)藥物的日銷售序列之間的距離和藥品銷量波動程度,得到各類藥物其各關(guān)聯(lián)藥物的關(guān)聯(lián)偏差值;根據(jù)每類藥物與其所有關(guān)聯(lián)藥物的同步變化差異權(quán)重和關(guān)聯(lián)偏差值,得到數(shù)據(jù)波動異常值;
7、根據(jù)各類藥物的數(shù)據(jù)波動異常值得到自適應密度閾值;將自適應密度閾值代入密度聚類算法對每類藥物的所有日銷售量進行聚類,得到目標月份下的藥物穩(wěn)定特征序列。
8、進一步,所述根據(jù)各類藥品在所有渠道下的日銷售量的數(shù)值分布情況,得到各類藥品的藥品銷量波動程度,包括:
9、將各類藥品在所有渠道下的日銷售量總和,記為各類藥品的日銷量;對目標月份下各類藥品的所有日銷量組成的序列,記為各類藥品的日銷售序列;對各類藥品的日銷售序列采用最小二乘法進行曲線擬合,得到銷售曲線;獲取銷售曲線上的各極值點;
10、計算所述日銷售序列中所述各極值點對應的日銷量與其前一個日銷量的差異,記為第一差異;計算所述日銷售序列中所述各極值點對應的日銷量與其后一個日銷量的差異,記為第二差異;計算第一差異與第二差異的和值;將銷售曲線上所有極值點的所述和值的累加和,記為各類藥品的藥品銷量波動程度。
11、進一步,根據(jù)各類藥物與其他各類藥物在處方單中的共現(xiàn)概率,獲得各類藥物的關(guān)聯(lián)藥物,包括:
12、將任意一類藥物記為目標藥物,計算目標藥物與目標月份的所有處方單中除目標藥物之外的其他各類藥物的共現(xiàn)概率;將目標月份的所有處方單中所述共現(xiàn)概率最高的預設(shè)數(shù)量類藥物,作為目標藥物的關(guān)聯(lián)藥物。
13、進一步,所述每類藥物與其各關(guān)聯(lián)藥物之間的同步變化差異權(quán)重的計算方法,包括:將第b類藥物與其第c個關(guān)聯(lián)藥物之間的同步變化差異權(quán)重記為,;式中,為第b類藥物的日銷售序列的方差;為第b類藥物的第c個關(guān)聯(lián)藥物的日銷售序列的方差;為第b類藥物的藥品銷量波動程度;為第b類藥物的第c個關(guān)聯(lián)藥物的藥品銷量波動程度;為線性歸一化函數(shù)。
14、進一步,所述各類藥物其各關(guān)聯(lián)藥物的關(guān)聯(lián)偏差值的獲取方法,包括:
15、對于各類藥物,計算藥物與其各關(guān)聯(lián)藥物的日銷售序列之間的距離;將所述距離與各類藥品的各關(guān)聯(lián)藥物的藥品銷量波動程度的乘積,作為藥物與其各關(guān)聯(lián)藥物的關(guān)聯(lián)偏差值。
16、進一步,所述根據(jù)每類藥物與其所有關(guān)聯(lián)藥物的同步變化差異權(quán)重和關(guān)聯(lián)偏差值,得到數(shù)據(jù)波動異常值,包括:
17、計算每類藥物與其各關(guān)聯(lián)藥物的同步變化差異權(quán)重和關(guān)聯(lián)偏差值的融合結(jié)果,將每類藥物與其所有關(guān)聯(lián)藥物的所述融合結(jié)果的均值作為每類藥物的數(shù)據(jù)波動異常值。
18、進一步,所述根據(jù)各類藥物的數(shù)據(jù)波動異常值得到自適應密度閾值,包括:將第b類藥物對應的自適應密度閾值記為,;其中,為第b類藥物對應的自適應密度閾值;為第b類藥物的日銷售序列的均值;為第b類藥物的數(shù)據(jù)波動異常值;為預設(shè)初始密度閾值;為線性歸一化函數(shù);為四舍五入取整函數(shù);為預設(shè)調(diào)控參數(shù)。
19、進一步,所述將自適應密度閾值代入密度聚類算法對每類藥物的所有日銷售量進行聚類,得到目標月份下的藥物穩(wěn)定特征序列,包括:
20、將自適應密度閾值作為密度聚類算法中的密度閾值,對每類藥物的日銷售序列進行聚類,得到各聚類簇;將所有聚類簇中包含元素最多的聚類簇標記為正常簇;
21、將正常簇內(nèi)包含的元素數(shù)量與類藥物的日銷售序列中的元素數(shù)量的比值,記為每類藥物的銷售數(shù)據(jù)正常率;將正常簇內(nèi)所有元素的方差與每類藥物的銷售數(shù)據(jù)正常率的乘積,作為每類藥物的穩(wěn)定性評判值;
22、對所有藥物按照穩(wěn)定性評判值排序,得到目標月份下的藥物穩(wěn)定特征序列。
23、第二方面,本技術(shù)實施例提供了一種大規(guī)模數(shù)據(jù)關(guān)鍵特征提取的電子設(shè)備,所述大規(guī)模數(shù)據(jù)關(guān)鍵特征提取的電子設(shè)備,包括:
24、大數(shù)據(jù)采集模塊,用于采集目標月份每個渠道下各類藥品的日銷售量;
25、大數(shù)據(jù)分析模塊,用于根據(jù)各類藥品在所有渠道下的日銷售量的數(shù)值分布情況,得到各類藥品的藥品銷量波動程度;獲取目標月份的所有處方單;根據(jù)各類藥物與其他各類藥物在處方單中的共現(xiàn)概率,獲得各類藥物的關(guān)聯(lián)藥物;根據(jù)每類藥物與其各關(guān)聯(lián)藥物的所有日銷售量之間的變化差異以及藥品銷量波動程度差異,計算每類藥物與其各關(guān)聯(lián)藥物之間的同步變化差異權(quán)重;根據(jù)各類藥物其各關(guān)聯(lián)藥物的日銷售序列之間的距離和藥品銷量波動程度,得到各類藥物其各關(guān)聯(lián)藥物的關(guān)聯(lián)偏差值;根據(jù)每類藥物與其所有關(guān)聯(lián)藥物的同步變化差異權(quán)重和關(guān)聯(lián)偏差值,得到數(shù)據(jù)波動異常值;
26、數(shù)據(jù)特征提取模塊,用于根據(jù)各類藥物的數(shù)據(jù)波動異常值得到自適應密度閾值;將自適應密度閾值代入密度聚類算法對每類藥物的所有日銷售量進行聚類,得到目標月份下的藥物穩(wěn)定特征序列。
27、第三方面,本技術(shù)實施例還提供了一種大規(guī)模數(shù)據(jù)關(guān)鍵特征提取介質(zhì),所述數(shù)據(jù)關(guān)鍵特征提取介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述任意一項一種大規(guī)模數(shù)據(jù)關(guān)鍵特征提取方法的步驟。
28、本技術(shù)至少具有如下有益效果:
29、本技術(shù)通過對時長監(jiān)控工具獲取某地區(qū)各類藥品整體的銷售數(shù)據(jù)并上傳到大數(shù)據(jù)平臺進行分析。針對單類藥品日銷售序列中日銷售量在時間上的依賴特性,得到藥品銷量波動程度,反映了藥品受隨機性和季節(jié)性正常波動的程度,并且利用與該類藥品相關(guān)聯(lián)藥品在銷售數(shù)據(jù)上的波動變化相似性,得到數(shù)據(jù)波動異常值,反映了藥品協(xié)同變換的關(guān)聯(lián)情況,由此得到在單類藥品在目標月份下的自適應密度閾值,并且利用聚類算法得到正常簇和異常簇,排除異常值的干擾得到藥品銷量真實的穩(wěn)定性情況。解決了傳統(tǒng)算法中直接利用所有銷量進行穩(wěn)定性分析時,造成穩(wěn)定性與真實銷量情況偏差較大的風險,導致穩(wěn)定性特征不準確的缺陷。本方案中針對藥品針對時間依賴特性和關(guān)聯(lián)藥品相似性變化的特征,控制聚類算法的自適應密度閾值,提高對異常值的篩選精度,能夠得到較為準確的日銷售數(shù)據(jù),由此提高了對藥品銷售穩(wěn)定性特征提取的精準度。