日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于差異樹的統(tǒng)計(jì)分析方法及系統(tǒng)的制作方法

文檔序號(hào):6331035閱讀:356來源:國(guó)知局
專利名稱:一種基于差異樹的統(tǒng)計(jì)分析方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)統(tǒng)計(jì)分析技術(shù)領(lǐng)域,涉及一種基于差異樹的統(tǒng)計(jì)分析方法及其對(duì)應(yīng)的數(shù)據(jù)分析系統(tǒng)。
背景技術(shù)
目前市場(chǎng)上普遍使用的SAS統(tǒng)計(jì)軟件的樹形模型目前沒有引入差異統(tǒng)計(jì)量的概念和分類和回歸樹的算法。建模中備選自變量的選擇和分裂點(diǎn)都沒有達(dá)到最佳。同時(shí),沒有考慮到全局關(guān)聯(lián)性的統(tǒng)一和每次分裂時(shí)的交互性能評(píng)估,導(dǎo)致模型的性能比較低下,這也是SAS樹形模型軟件少有用戶使用的原因。對(duì)于Model BuiIder、Xeno和Knowledge Studio這些市場(chǎng)上比較熱門的建模軟件來說,同樣沒有引入差異統(tǒng)計(jì)量的概念和分類和回歸樹的算法,建模中備選自變量的選擇和分裂點(diǎn)都沒有達(dá)到最佳,沒有考慮到全局關(guān)聯(lián)性的統(tǒng)一和每次分裂時(shí)的交互性能評(píng)估, 導(dǎo)致模型的性能比較低下。本發(fā)明設(shè)計(jì)的突破在于找到了相對(duì)于兩個(gè)特定的目標(biāo)(分離和齊性)下的最佳統(tǒng)計(jì)量,而且這兩個(gè)統(tǒng)計(jì)量同時(shí)提供最佳分裂點(diǎn),克服了上述技術(shù)的缺陷,這些突破在當(dāng)今統(tǒng)計(jì)學(xué)界也是創(chuàng)新。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于差異樹的統(tǒng)計(jì)分析方法及其對(duì)應(yīng)的系統(tǒng)。一種基于差異樹的統(tǒng)計(jì)分析方法,該方法包括如下步驟步驟1,基于給定的用于數(shù)據(jù)挖掘的數(shù)據(jù)庫,進(jìn)行數(shù)據(jù)整理;步驟2,通過自變量篩選模塊從備選自變量庫中選擇最佳自變量;步驟3,輸入與自變量相對(duì)應(yīng)的目標(biāo)變量;步驟4,在自變量和目標(biāo)變量之間建立決策樹模型,其中的決策樹模型由與自變量相對(duì)應(yīng)的差異樹模型組成,其中的差異樹以尋找最佳自變量的最佳分裂點(diǎn)的方式對(duì)目標(biāo)變量進(jìn)行分裂,其中最佳自變量的最佳分裂點(diǎn),通過最大化樹葉間差異統(tǒng)計(jì)量的方法進(jìn)行判定;步驟5,得出最終統(tǒng)計(jì)結(jié)果,并輸出給客戶。進(jìn)一步,所述的一種基于差異樹的統(tǒng)計(jì)分析方法,還具有如下技術(shù)特征在步驟2中,所述的自變量篩選模塊,它是根據(jù)差異樹分裂標(biāo)準(zhǔn)函數(shù)來挑選符合標(biāo)準(zhǔn)的自變量的模塊結(jié)構(gòu)。所述的最大化樹葉間差異統(tǒng)計(jì)量的方法,包括A,對(duì)差異樹中要進(jìn)行分裂的節(jié)點(diǎn),通過差異統(tǒng)計(jì)量計(jì)算模塊計(jì)算每個(gè)自變量?jī)蓸淙~之間的差異統(tǒng)計(jì)量最大值;B,通過自變量分裂點(diǎn)判定模塊對(duì)差異統(tǒng)計(jì)量最大值進(jìn)行排序,并選擇對(duì)應(yīng)上述最大值的自變量;
C,在該自變量進(jìn)行樹形分裂。在所述的步驟4中,在每次分裂后,通過樹形模型即時(shí)性能評(píng)估模塊對(duì)樹形模型進(jìn)行即時(shí)性能的再評(píng)估。在所述的步驟4中,建立樹形模型時(shí)發(fā)現(xiàn)需要對(duì)樹形需要調(diào)整,通過樹形模型樹葉微調(diào)模塊,取消前次樹形的分裂。所述的一種基于差異樹的統(tǒng)計(jì)分析方法,通過全程監(jiān)控模塊,對(duì)差異樹分裂的全
過程進(jìn)行監(jiān)控,以確保每次分裂的結(jié)果,只有與實(shí)際經(jīng)驗(yàn)相吻合時(shí)才可進(jìn)行進(jìn)一步樹形分 m農(nóng)。一種基于差異樹的統(tǒng)計(jì)分析系統(tǒng),該系統(tǒng)包括如下結(jié)構(gòu)自變量篩選模塊,它是用于選擇最佳候選自變量的模塊結(jié)構(gòu);差異統(tǒng)計(jì)量計(jì)算模塊,它是在對(duì)找尋上述自變量最佳分裂點(diǎn)進(jìn)行差異統(tǒng)計(jì)量計(jì)算時(shí),用于計(jì)算葉片之間差異統(tǒng)計(jì)量的模塊結(jié)構(gòu);自變量分裂點(diǎn)判定模塊,它是用于根據(jù)上述差異統(tǒng)計(jì)量計(jì)算模塊計(jì)算的差異統(tǒng)計(jì)量大小,來判斷自變量的最佳分裂點(diǎn)的模塊結(jié)構(gòu)。進(jìn)一步,所述的一種基于差異樹的統(tǒng)計(jì)分析系統(tǒng),還具有如下技術(shù)特征所述的一種基于差異樹的統(tǒng)計(jì)分析系統(tǒng),還包括有在每次分裂后,對(duì)樹形模型進(jìn)行即時(shí)性能的再評(píng)估的樹形模型即時(shí)性能評(píng)估模塊。所述的一種基于差異樹的統(tǒng)計(jì)分析系統(tǒng),還包括有在建立樹形模型時(shí)取消前次樹形的分裂的樹形模型樹葉微調(diào)模塊。所述的一種基于差異樹的統(tǒng)計(jì)分析系統(tǒng),還包括有用于確保每次分裂的結(jié)果,只有與實(shí)際經(jīng)驗(yàn)相吻合時(shí)才可進(jìn)行進(jìn)一步樹形分裂的全程監(jiān)控模塊。實(shí)施本發(fā)明,具有如下有益效果本發(fā)明所述的這種基于差異樹的統(tǒng)計(jì)分析方法及系統(tǒng),以快速分離目標(biāo)變量為目的,強(qiáng)調(diào)目標(biāo)變量的分離;在分離目標(biāo)變量的同時(shí)要求樹形模型每次分裂的即時(shí)樹葉具最小變差,強(qiáng)調(diào)目標(biāo)變量的齊性。兩種設(shè)計(jì)均采用即時(shí)最優(yōu)算法,即樹形模型每次分裂所選擇的特征變量以及分裂地點(diǎn)在即時(shí)狀態(tài)下都是最優(yōu)化結(jié)果。作為優(yōu)秀的統(tǒng)計(jì)分析工具,本統(tǒng)計(jì)模型有著廣泛的適用領(lǐng)域,例如預(yù)測(cè)一個(gè)事件發(fā)生的概率,例如銀行客戶違約信用卡詐騙、作案犯罪等的概率;找出一個(gè)最成功優(yōu)化決策的特征條件,解剖失敗決策的原因;找出刑事犯罪、銀行壞帳、違約高風(fēng)險(xiǎn)群體特征;找出最佳優(yōu)化藥物組合;評(píng)估預(yù)測(cè)信賃風(fēng)險(xiǎn)回報(bào)及損失;建立銀行風(fēng)險(xiǎn)資本模型,包括違約概率模型、違約損失率模型和違約風(fēng)險(xiǎn)暴露模型等。


圖1是本發(fā)明所述的一種基于差異樹的統(tǒng)計(jì)分析系統(tǒng)的原理框圖。圖2是本發(fā)明所述的一種基于差異樹的統(tǒng)計(jì)分析方法的方法流程圖。
具體實(shí)施例方式下面參照著附圖對(duì)本發(fā)明所述的一種基于差異樹的統(tǒng)計(jì)分析系統(tǒng)100,以及對(duì)應(yīng)的實(shí)現(xiàn)過程做更詳細(xì)的介紹
圖1、2的說明參圖1、2所示,結(jié)合本發(fā)明的結(jié)構(gòu)原理,對(duì)本發(fā)明所述的一種基于差異樹的統(tǒng)計(jì)分析過程,進(jìn)行詳細(xì)的介紹步驟1,基于給定的用于數(shù)據(jù)挖掘的數(shù)據(jù)庫,進(jìn)行數(shù)據(jù)整理;在該步驟中,是通過用戶根據(jù)自己的需要建立的數(shù)據(jù)信息庫,該統(tǒng)計(jì)分析系統(tǒng)可以針對(duì)對(duì)應(yīng)的很多領(lǐng)域來預(yù)測(cè)一個(gè)事件發(fā)生的概率,例如,銀行客戶違約信用卡詐騙、作案犯罪等的概率;找出一個(gè)最成功優(yōu)化決策的特征條件,解剖失敗決策的原因;找出刑事犯罪、銀行壞帳、違約高風(fēng)險(xiǎn)群體特征;找出最佳優(yōu)化藥物組合;評(píng)估預(yù)測(cè)信賃風(fēng)險(xiǎn)回報(bào)及損失;建立銀行風(fēng)險(xiǎn)資本模型,包括違約概率模型、違約損失率模型和違約風(fēng)險(xiǎn)暴露模型等。作為舉例而非限定,若銀行要通過該統(tǒng)計(jì)分析方法,來判斷辦理信用卡客戶的壞帳、違約高風(fēng)險(xiǎn)群體特征時(shí),就需要銀行工作人員將客戶的各種信息存入到自變量數(shù)據(jù)庫中;所述的各種信息,可以包括有客戶的年齡、年收入、性另I」、學(xué)歷等信息。步驟2,通過自變量篩選模塊110從備選自變量庫中選擇最佳候選自變量。所述的自變量篩選模塊110,它是根據(jù)差異樹分裂標(biāo)準(zhǔn)函數(shù)來挑選符合標(biāo)準(zhǔn)的自變量的模塊結(jié)構(gòu)。在該步驟中,具體是通過差異樹分裂標(biāo)準(zhǔn)函數(shù),在備選自變量數(shù)據(jù)庫中,挑選符合標(biāo)準(zhǔn)的自變量。結(jié)合上述步驟1中的銀行判斷辦理信用卡客戶的壞帳、違約高風(fēng)險(xiǎn)群體特征的例子,在該步驟中,將通過差異樹分裂標(biāo)準(zhǔn)函數(shù)挑選出信用卡客戶的年齡信息,然后挑選出年收入信息,等等。步驟3,輸入與自變量相對(duì)應(yīng)的目標(biāo)變量。繼續(xù)結(jié)合上述步驟1中的銀行判斷辦理信用卡客戶的壞帳、違約高風(fēng)險(xiǎn)群體特征的例子,在該步驟中,就需要由銀行工作人員輸入其所要研究的目標(biāo)變量,如申請(qǐng)者是否壞賬(二元目標(biāo)變量)等。步驟4,在自變量和目標(biāo)變量之間建立決策樹模型,其中的決策樹模型由與自變量相對(duì)應(yīng)的差異樹模型組成,每個(gè)決策樹模型包括一個(gè)或多個(gè)差異樹模型,最終的計(jì)算的決策結(jié)果,綜合了各個(gè)差異樹模型的結(jié)果而得出的。其中的差異樹以尋找最佳分裂點(diǎn)的方式對(duì)目標(biāo)變量進(jìn)行分裂,其中的最佳分裂點(diǎn),通過最大化樹葉間差異統(tǒng)計(jì)量的方法進(jìn)行判定。所述的最大化樹葉間差異統(tǒng)計(jì)量的方法,還包括有如下具體步驟A,對(duì)差異樹中要進(jìn)行分裂的節(jié)點(diǎn),通過差異統(tǒng)計(jì)量計(jì)算模塊120計(jì)算每個(gè)自變量?jī)蓸淙~之間的差異統(tǒng)計(jì)量最大值;B,通過自變量分裂點(diǎn)判定模塊130對(duì)差異統(tǒng)計(jì)量最大值進(jìn)行排序,并選擇對(duì)應(yīng)上述最大值的自變量;C,在該自變量進(jìn)行樹形分裂。對(duì)一個(gè)二元差異樹模型引入差異統(tǒng)計(jì)量ΒΤ( α,ν),α > 0。統(tǒng)計(jì)量BT ( α,ν)衡量同一節(jié)點(diǎn)下兩片樹葉間的距離,其中α決定了對(duì)樹葉大小不均衡狀態(tài)下的懲罰程度。這種樹形模型被稱為差異樹。差異樹能對(duì)不同目標(biāo)值作高效分離,而樹的穩(wěn)定性得到保持。二元差異樹具有以下特性
6
當(dāng)0 < α < 2時(shí)穩(wěn)定性比分類和回歸樹好,當(dāng)α > 2時(shí)齊性比分類和回歸樹好,目前最常用的高級(jí)樹形算法分類和回歸樹也只是其一個(gè)特例。當(dāng)α = 1時(shí),為 KS(Kolmogorov-Smirnov)差異樹;當(dāng) α = 2 時(shí),為類間關(guān)聯(lián)樹模型(ICC,即 Intra-Class Correlation tree)。運(yùn)用差異統(tǒng)計(jì)量ΒΤ(α,V),本統(tǒng)計(jì)模型實(shí)現(xiàn)了以下即時(shí)最優(yōu)算法對(duì)要進(jìn)行分裂的節(jié)點(diǎn)計(jì)算每個(gè)自變量ΒΤ( α,ν)的最大值和達(dá)到最大值時(shí)χ的值
X = V;對(duì)各自變量的ΒΤ(α,ν)最大值進(jìn)行排序并選擇對(duì)應(yīng)最高最大值的變量X,然后在 χ = ν時(shí)進(jìn)行樹形分裂。在所述的步驟4中,在每次分裂后,通過樹形模型即時(shí)性能評(píng)估模塊140對(duì)樹形模型進(jìn)行即時(shí)性能的再評(píng)估。在所述的步驟4中,建立樹形模型時(shí)發(fā)現(xiàn)需要對(duì)樹形需要調(diào)整,通過樹形模型樹葉微調(diào)模塊150,取消前次樹形的分裂。所述的一種基于差異樹的統(tǒng)計(jì)分析方法,通過全程監(jiān)控模塊160,對(duì)差異樹分裂的全過程進(jìn)行監(jiān)控,以確保每次分裂的結(jié)果,只有與實(shí)際經(jīng)驗(yàn)相吻合時(shí)才可進(jìn)行進(jìn)一步樹形分裂。步驟5,得出最終統(tǒng)計(jì)結(jié)果,并輸出給客戶。以上是對(duì)本發(fā)明的描述而非限定,基于本發(fā)明思想的其它實(shí)施方式,均在本發(fā)明的保護(hù)范圍之中。
權(quán)利要求
1.一種基于差異樹的統(tǒng)計(jì)分析方法,其特征在于,該方法包括如下步驟 步驟1,基于給定的用于數(shù)據(jù)挖掘的數(shù)據(jù)庫,進(jìn)行數(shù)據(jù)整理;步驟2,通過自變量篩選模塊從備選自變量庫中選擇最佳自變量;步驟3,輸入與自變量相對(duì)應(yīng)的目標(biāo)變量;步驟4,在自變量和目標(biāo)變量之間建立決策樹模型,其中的決策樹模型由與自變量相對(duì)應(yīng)的差異樹模型組成,其中的差異樹以尋找最佳自變量的最佳分裂點(diǎn)的方式對(duì)目標(biāo)變量進(jìn)行分裂,其中最佳自變量的最佳分裂點(diǎn),通過最大化樹葉間差異統(tǒng)計(jì)量的方法進(jìn)行判定;步驟5,得出最終統(tǒng)計(jì)結(jié)果,并輸出給客戶。
2.根據(jù)權(quán)利要求1所述的一種基于差異樹的統(tǒng)計(jì)分析方法,其特征在于,在步驟2中, 所述的自變量篩選模塊,它是根據(jù)差異樹分裂標(biāo)準(zhǔn)函數(shù)來挑選符合標(biāo)準(zhǔn)的自變量的模塊結(jié)構(gòu)。
3.根據(jù)權(quán)利要求1所述的一種基于差異樹的統(tǒng)計(jì)分析方法,其特征在于,所述的最大化樹葉間差異統(tǒng)計(jì)量的方法,包括A,對(duì)差異樹中要進(jìn)行分裂的節(jié)點(diǎn),通過差異統(tǒng)計(jì)量計(jì)算模塊計(jì)算每個(gè)自變量?jī)蓸淙~之間的差異統(tǒng)計(jì)量最大值;B,通過自變量分裂點(diǎn)判定模塊對(duì)差異統(tǒng)計(jì)量最大值進(jìn)行排序,并選擇對(duì)應(yīng)上述最大值的自變量;C,在該自變量進(jìn)行樹形分裂。
4.根據(jù)權(quán)利要求1所述的一種基于差異樹的統(tǒng)計(jì)分析方法,其特征在于,在所述的步驟4中,在每次分裂后,通過樹形模型即時(shí)性能評(píng)估模塊對(duì)樹形模型進(jìn)行即時(shí)性能的再評(píng)估。
5.根據(jù)權(quán)利要求1所述的一種基于差異樹的統(tǒng)計(jì)分析方法,其特征在于,在所述的步驟4中,建立樹形模型時(shí)發(fā)現(xiàn)需要對(duì)樹形需要調(diào)整,通過樹形模型樹葉微調(diào)模塊,取消前次樹形的分裂。
6.根據(jù)權(quán)利要求1所述的一種基于差異樹的統(tǒng)計(jì)分析方法,其特征在于,所述的一種基于差異樹的統(tǒng)計(jì)分析方法,通過全程監(jiān)控模塊,對(duì)差異樹分裂的全過程進(jìn)行監(jiān)控,以確保每次分裂的結(jié)果,只有與實(shí)際經(jīng)驗(yàn)相吻合時(shí)才可進(jìn)行進(jìn)一步樹形分裂。
7.一種基于差異樹的統(tǒng)計(jì)分析系統(tǒng),其特征在于,該系統(tǒng)包括如下結(jié)構(gòu) 自變量篩選模塊,它是用于選擇最佳候選自變量的模塊結(jié)構(gòu);差異統(tǒng)計(jì)量計(jì)算模塊,它是在對(duì)找尋上述自變量最佳分裂點(diǎn)進(jìn)行差異統(tǒng)計(jì)量計(jì)算時(shí), 用于計(jì)算葉片之間差異統(tǒng)計(jì)量的模塊結(jié)構(gòu);自變量分裂點(diǎn)判定模塊,它是用于根據(jù)上述差異統(tǒng)計(jì)量計(jì)算模塊計(jì)算的差異統(tǒng)計(jì)量大小,來判斷自變量的最佳分裂點(diǎn)的模塊結(jié)構(gòu)。
8.根據(jù)權(quán)利要求7所述的一種基于差異樹的統(tǒng)計(jì)分析系統(tǒng),其特征在于,所述的一種基于差異樹的統(tǒng)計(jì)分析系統(tǒng),還包括有在每次分裂后,對(duì)樹形模型進(jìn)行即時(shí)性能的再評(píng)估的樹形模型即時(shí)性能評(píng)估模塊。
9.根據(jù)權(quán)利要求7所述的一種基于差異樹的統(tǒng)計(jì)分析系統(tǒng),其特征在于,所述的一種基于差異樹的統(tǒng)計(jì)分析系統(tǒng),還包括有在建立樹形模型時(shí)取消前次樹形的分裂的樹形模型樹葉微調(diào)模塊。
10.根據(jù)權(quán)利要求7所述的一種基于差異樹的統(tǒng)計(jì)分析系統(tǒng),其特征在于,所述的一種基于差異樹的統(tǒng)計(jì)分析系統(tǒng),還包括有用于確保每次分裂的結(jié)果,只有與實(shí)際經(jīng)驗(yàn)相吻合時(shí)才可進(jìn)行進(jìn)一步樹形分裂的全程監(jiān)控模塊。
全文摘要
本發(fā)明涉及一種基于差異樹的統(tǒng)計(jì)分析方法及系統(tǒng),屬于數(shù)據(jù)統(tǒng)計(jì)分析領(lǐng)域。基于給定的數(shù)據(jù)挖掘數(shù)據(jù)庫,該方法通過自變量篩選模塊從備選自變量庫中選擇符合標(biāo)準(zhǔn)的自變量;輸入與自變量相對(duì)應(yīng)的目標(biāo)變量;在自變量和目標(biāo)變量之間建立決策樹模型;輸出統(tǒng)計(jì)結(jié)果。該系統(tǒng)包括自變量篩選模塊、差異統(tǒng)計(jì)量計(jì)算模塊、自變量分裂點(diǎn)判定模塊。該方法和系統(tǒng)以快速分離目標(biāo)變量為目的,強(qiáng)調(diào)目標(biāo)變量的分離;在分離目標(biāo)變量的同時(shí)要求樹形模型每次分裂的即時(shí)樹葉具最小變差,強(qiáng)調(diào)目標(biāo)變量的齊性。在找出最佳優(yōu)化藥物組合;評(píng)估預(yù)測(cè)信賃風(fēng)險(xiǎn)回報(bào)及損失;建立銀行風(fēng)險(xiǎn)資本模型,包括違約概率模型、違約損失率模型和違約風(fēng)險(xiǎn)暴露模型等領(lǐng)域都得到很好的應(yīng)用。
文檔編號(hào)G06F17/30GK102375861SQ201010265350
公開日2012年3月14日 申請(qǐng)日期2010年8月26日 優(yōu)先權(quán)日2010年8月26日
發(fā)明者楊華建 申請(qǐng)人:李源, 鮑清
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1