日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種對(duì)標(biāo)企業(yè)名單的篩選方法和裝置與流程

文檔序號(hào):11323978閱讀:480來(lái)源:國(guó)知局
一種對(duì)標(biāo)企業(yè)名單的篩選方法和裝置與流程

本發(fā)明涉及行業(yè)對(duì)標(biāo)技術(shù)領(lǐng)域,特別是涉及一種對(duì)標(biāo)企業(yè)名單的篩選方法和裝置。



背景技術(shù):

行業(yè)對(duì)標(biāo)分析是一種較為科學(xué)先進(jìn)的企業(yè)管理方法,指企業(yè)以行業(yè)內(nèi)或行業(yè)外的優(yōu)秀企業(yè)作為標(biāo)桿,從各個(gè)方面與標(biāo)桿企業(yè)進(jìn)行比較、分析、判斷,通過(guò)學(xué)習(xí)他人的先進(jìn)經(jīng)驗(yàn)來(lái)改善自身的不足,從而趕超標(biāo)桿企業(yè),不斷追求優(yōu)秀業(yè)績(jī)的良性循環(huán)過(guò)程。

隨著生產(chǎn)力的發(fā)展,各企業(yè)的經(jīng)營(yíng)元素越來(lái)越豐富,導(dǎo)致行業(yè)對(duì)標(biāo)分析所需要解決的情況越來(lái)越復(fù)雜。例如,企業(yè)多元化經(jīng)營(yíng)充分,所涉及的各個(gè)行業(yè)發(fā)展較為均衡,無(wú)明顯的主營(yíng)業(yè)務(wù)企業(yè),單一行業(yè)項(xiàng)下的各類分析工具和指標(biāo),包括行業(yè)均值、周期等,已經(jīng)無(wú)法準(zhǔn)確的對(duì)該類企業(yè)進(jìn)行分析;又如,隨著行業(yè)不斷的細(xì)分,以及細(xì)分行業(yè)之間的跨界,催生了多樣化的微分、混搭行業(yè),雖然這些行業(yè)同屬一個(gè)國(guó)標(biāo)細(xì)分行業(yè),但其經(jīng)營(yíng)、財(cái)務(wù)等特征均不同;再如,部分企業(yè)的經(jīng)營(yíng)內(nèi)容,按其加工深度,可以對(duì)應(yīng)到多個(gè)國(guó)標(biāo)行業(yè),就像氨的制造屬于化學(xué)原料制造,加工后制成化肥,就屬于化肥制造。

同時(shí),部分行業(yè)在國(guó)標(biāo)分類上,分屬不同行業(yè),但是其實(shí)際經(jīng)營(yíng)、財(cái)務(wù)存在一定的聯(lián)系,傳統(tǒng)的基于國(guó)標(biāo)單一行業(yè)劃分項(xiàng)下的行業(yè)對(duì)標(biāo)分析方法,無(wú)法將兩者歸并到企業(yè)進(jìn)行分析,一方面導(dǎo)致了數(shù)據(jù)浪費(fèi),另一方面也會(huì)導(dǎo)致樣本不足的情況下,不能跨行業(yè)借用相似企業(yè)數(shù)據(jù)進(jìn)行分析。

以上種種因素,導(dǎo)致了行業(yè)對(duì)標(biāo)分析方法效用下降,故如何篩選對(duì)標(biāo)企業(yè)名單,就成為了行業(yè)對(duì)標(biāo)分析的前置難點(diǎn)。



技術(shù)實(shí)現(xiàn)要素:

有鑒于此,本發(fā)明提供一種對(duì)標(biāo)企業(yè)名單的篩選方法和裝置,用于為行業(yè)對(duì)標(biāo)分析提供對(duì)標(biāo)企業(yè)名單。

為了實(shí)現(xiàn)上述目的,本發(fā)明公開(kāi)了一種對(duì)標(biāo)企業(yè)名單的篩選方法,包括步驟:

提取預(yù)設(shè)的多個(gè)比照企業(yè)的經(jīng)營(yíng)范圍的有序元素序列,并對(duì)所述有序元素序列進(jìn)行去重和分割,得到所述比照企業(yè)的經(jīng)營(yíng)范圍的核心元素和修飾元素,對(duì)企業(yè)其他經(jīng)營(yíng)特征(如:產(chǎn)品、原材料等離散的特征)的有序元素序列,進(jìn)行去重,得到所述比照企業(yè)的其他經(jīng)營(yíng)特征元素;

根據(jù)所述核心元素、所述修飾元素和其他經(jīng)營(yíng)特征元素構(gòu)建多個(gè)特征集群,并對(duì)每個(gè)所述特征集群進(jìn)行分群度量,得到每個(gè)所述特征集群的度量值;

構(gòu)建需要對(duì)標(biāo)的目標(biāo)企業(yè)的企業(yè)特征矩陣,所述企業(yè)特征矩陣包括所述目標(biāo)企業(yè)的核心元素向量、修飾元素向量和其他經(jīng)營(yíng)特征元素向量;

根據(jù)所述企業(yè)特征矩陣和所述度量值計(jì)算所述目標(biāo)企業(yè)與每個(gè)所述比照企業(yè)之間的相似度;

根據(jù)所述相似度從所述多個(gè)比照企業(yè)中確定對(duì)標(biāo)企業(yè)名單。

可選的,所述提取預(yù)設(shè)的多個(gè)比照企業(yè)的經(jīng)營(yíng)范圍的有序元素序列,并對(duì)所述有序元素序列進(jìn)行去重和分割,得到所述比照企業(yè)的經(jīng)營(yíng)范圍的核心元素和修飾元素,包括步驟:

將所述有序元素序列進(jìn)行簡(jiǎn)化處理,剔除其中無(wú)意義的字符;

將經(jīng)過(guò)簡(jiǎn)化處理的有序元素序列根據(jù)預(yù)設(shè)的分割符進(jìn)行第一次分割處理;

將經(jīng)過(guò)第一次分割處理的有序元素序列進(jìn)行第二次分割處理,將超過(guò)兩個(gè)字的元素進(jìn)行分詞處理;

將經(jīng)過(guò)第二次分割處理的有序元素序列進(jìn)行分類處理,得到所述核心元素和所述修飾元素。

可選的,所述提取預(yù)設(shè)的多個(gè)比照企業(yè)的經(jīng)營(yíng)范圍的有序元素序列,并對(duì)所述有序元素序列進(jìn)行去重和分割,得到所述比照企業(yè)的經(jīng)營(yíng)范圍的核心元素和修飾元素,還包括步驟:

將所述有序元素的組別按詞性進(jìn)行調(diào)整。

可選的,所述根據(jù)所述核心元素、所述修飾元素、其他經(jīng)營(yíng)特征元素構(gòu)建多個(gè)特征集群,并對(duì)每個(gè)所述特征集群進(jìn)行分群度量,得到每個(gè)所述特征集群的度量值,包括步驟:

對(duì)所述核心元素和所述修飾元素分別進(jìn)行去重處理,形成所述比照企業(yè)的核心元素序列和修飾元素序列,并根據(jù)所述核心元素序列和所述修飾元素序列構(gòu)建層矩陣,并對(duì)企業(yè)其他經(jīng)營(yíng)特征(如:產(chǎn)品、原材料等離散的特征)的有序元素進(jìn)行去重,得到所述比照企業(yè)的其他經(jīng)營(yíng)特征元素序列,并根據(jù)所述其他經(jīng)營(yíng)特征元素序列構(gòu)建層矩陣,所述層矩陣包括核心元素層矩陣、修飾元素層矩陣和其他經(jīng)營(yíng)特征元素矩陣;

將所述層矩陣按預(yù)設(shè)分群規(guī)則進(jìn)行分群處理,得到多個(gè)特征集群;

對(duì)所述特征集群進(jìn)行調(diào)整;

根據(jù)預(yù)設(shè)的計(jì)算規(guī)則計(jì)算每個(gè)所述特征集群的度量值。

可選的,所述根據(jù)所述相似度從所述多個(gè)比照企業(yè)中確定對(duì)標(biāo)企業(yè)名單,包括:

根據(jù)預(yù)設(shè)的相似度閾值從上述多個(gè)比照企業(yè)中進(jìn)行查找,將相似度大于所述相似度閾值的企業(yè)選出,形成所述對(duì)標(biāo)企業(yè)名單;

或者,將所述多個(gè)比照企業(yè)按其與所述目標(biāo)企業(yè)的相似度進(jìn)行排序,從排序列表中挑出預(yù)設(shè)數(shù)量的企業(yè),形成所述對(duì)標(biāo)企業(yè)名單。

相應(yīng)的,為了保證上述方法的實(shí)施,本發(fā)明還提供了一種對(duì)標(biāo)企業(yè)名單的篩選裝置,包括:

數(shù)據(jù)提取模塊,用于提取預(yù)設(shè)的多個(gè)比照企業(yè)的經(jīng)營(yíng)范圍的有序元素序列,并對(duì)所述有序元素序列進(jìn)行去重和分割,得到所述比照企業(yè)的經(jīng)營(yíng)范圍的核心元素和修飾元素;提取預(yù)設(shè)的比照企業(yè)的其他經(jīng)營(yíng)特征(如:產(chǎn)品、原材料等離散的特征)的有序元素,并對(duì)所述有序元素序列進(jìn)行去重,得到所述比照企業(yè)的其他經(jīng)營(yíng)特征元素序列;

特征集群構(gòu)建模塊,用于根據(jù)所述核心元素、所述修飾元素、其他經(jīng)營(yíng)特征元素構(gòu)建多個(gè)特征集群,并對(duì)每個(gè)所述特征集群進(jìn)行分群度量,得到每個(gè)所述特征集群的度量值;

特征矩陣構(gòu)建模塊,用于構(gòu)建需要對(duì)標(biāo)的目標(biāo)企業(yè)的企業(yè)特征矩陣,所述企業(yè)特征矩陣包括所述目標(biāo)企業(yè)的核心元素向量、修飾元素向量和其他經(jīng)營(yíng)特征元素向量;

相似度計(jì)算模塊,用于根據(jù)所述企業(yè)特征矩陣和所述度量值計(jì)算所述目標(biāo)企業(yè)與每個(gè)所述比照企業(yè)之間的相似度;

對(duì)標(biāo)名單確定模塊,用于根據(jù)所述相似度從所述多個(gè)比照企業(yè)中確定對(duì)標(biāo)企業(yè)名單。

可選的,所述數(shù)據(jù)提取模塊包括:

序列簡(jiǎn)化單元,用于將所述有序元素序列進(jìn)行簡(jiǎn)化處理,剔除其中無(wú)意義的字符;

第一分割單元,用于將經(jīng)過(guò)簡(jiǎn)化處理的有序元素序列根據(jù)預(yù)設(shè)的分割符進(jìn)行第一次分割處理;

第二分割單元,用于將經(jīng)過(guò)第一次分割處理的有序元素序列進(jìn)行第二次分割處理,將超過(guò)兩個(gè)字的元素進(jìn)行分詞處理;

分類處理單元,用于將經(jīng)過(guò)第二次分割處理的有序元素序列進(jìn)行分類處理,得到所述核心元素和所述修飾元素。

可選的,所述數(shù)據(jù)提取模塊還包括:

組別調(diào)整單元,用于將所述有序元素的組別按詞性進(jìn)行調(diào)整。

可選的,所述特征集群構(gòu)建模塊包括:

去重處理單元,用于對(duì)所述核心元素和所述修飾元素分別進(jìn)行去重處理,形成所述比照企業(yè)的核心元素序列和修飾元素序列,并根據(jù)所述核心元素序列和所述修飾元素序列構(gòu)建層矩陣,同時(shí),對(duì)企業(yè)其他經(jīng)營(yíng)特征(如:產(chǎn)品、原材料等離散的特征)的有序元素進(jìn)行去重,得到所述比照企業(yè)的其他經(jīng)營(yíng)特征元素序列,并根據(jù)所述其他經(jīng)營(yíng)特征元素序列構(gòu)建層矩陣,所述層矩陣包括核心元素層矩陣、修飾元素層矩陣和其他經(jīng)營(yíng)特征元素矩陣;

分群處理單元,用于將所述層矩陣按預(yù)設(shè)分群規(guī)則進(jìn)行分群處理,得到多個(gè)特征集群;

集群調(diào)整單元,用于對(duì)所述特征集群進(jìn)行調(diào)整;

度量值計(jì)算單元,用于根據(jù)預(yù)設(shè)的計(jì)算規(guī)則計(jì)算每個(gè)所述特征集群的度量值。

可選的,所述對(duì)標(biāo)名單確定模塊包括:

第一確定單元,用于根據(jù)預(yù)設(shè)的相似度閾值從上述多個(gè)比照企業(yè)中進(jìn)行查找,將相似度大于所述相似度閾值的企業(yè)選出,形成所述對(duì)標(biāo)企業(yè)名單;

第二確定單元,用于將所述多個(gè)比照企業(yè)按其與所述目標(biāo)企業(yè)的相似度進(jìn)行排序,從排序列表中挑出預(yù)設(shè)數(shù)量的企業(yè),形成所述對(duì)標(biāo)企業(yè)名單。

從上述技術(shù)方案可以看出,本發(fā)明提供了一種對(duì)標(biāo)企業(yè)名單的篩選方法和裝置,該方法和裝置具體為提取預(yù)設(shè)的多個(gè)比照企業(yè)的經(jīng)營(yíng)范圍的有序元素序列,并對(duì)有序元素序列進(jìn)行去重和分割,得到比照企業(yè)的經(jīng)營(yíng)范圍的核心元素和修飾元素;根據(jù)核心元素和修飾元素構(gòu)建多個(gè)特征集群,并對(duì)每個(gè)特征集群進(jìn)行分群度量,得到每個(gè)特征集群的度量值;構(gòu)建需要對(duì)標(biāo)的目標(biāo)企業(yè)的企業(yè)特征矩陣,企業(yè)特征矩陣包括目標(biāo)企業(yè)的核心元素向量和修飾元素向量;根據(jù)企業(yè)特征矩陣和度量值計(jì)算目標(biāo)企業(yè)與每個(gè)比照企業(yè)之間的相似度;根據(jù)相似度從多個(gè)比照企業(yè)中確定對(duì)標(biāo)企業(yè)名單,從而實(shí)現(xiàn)了為行業(yè)對(duì)標(biāo)分析提供對(duì)標(biāo)企業(yè)名單。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明提供的一種對(duì)標(biāo)企業(yè)名單的篩選方法實(shí)施例的步驟流程圖;

圖2為本發(fā)明提供的一種對(duì)標(biāo)企業(yè)名單的篩選裝置實(shí)施例的結(jié)構(gòu)框圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

本發(fā)明提供的對(duì)標(biāo)企業(yè)名單的篩選方法和裝置基于下述已有的信息。具體的已有信息包括:

a)若干家企業(yè)的經(jīng)營(yíng)范圍數(shù)據(jù),且根據(jù)若干企業(yè)的經(jīng)營(yíng)范圍數(shù)據(jù)構(gòu)建了企業(yè)經(jīng)營(yíng)范圍數(shù)據(jù)庫(kù);

b)若干的常見(jiàn)詞及常見(jiàn)詞之間的詞性對(duì)照表;

c)上述若干家企業(yè)的經(jīng)營(yíng)特征數(shù)據(jù),例如產(chǎn)品、原材料等,并根據(jù)該經(jīng)營(yíng)特征數(shù)據(jù)構(gòu)建了企業(yè)經(jīng)營(yíng)特征數(shù)據(jù)庫(kù);

實(shí)施例一

圖1為本發(fā)明提供的一種對(duì)標(biāo)企業(yè)名單的篩選方法實(shí)施例的步驟流程圖。

本實(shí)施例的執(zhí)行主體為電子計(jì)算裝置,該電子計(jì)算裝置可以位于本地終端的應(yīng)用,或者還可以為位于本地終端的應(yīng)用中的插件或軟件開(kāi)發(fā)工具包(softwaredevelopmentkit,sdk)等功能單元,本發(fā)明實(shí)施例對(duì)此不進(jìn)行特別限定。

可以理解的是,應(yīng)用可以是安裝在終端上的應(yīng)用程序(nativeapp),或者還可以是終端上的瀏覽器的一個(gè)網(wǎng)頁(yè)程序(webapp),本發(fā)明實(shí)施例對(duì)此不進(jìn)行限定。

如圖1所示,本實(shí)施例提供的對(duì)比企業(yè)名單的篩選方法具體包括如下步驟:

s101:提取預(yù)設(shè)的多家企業(yè)的經(jīng)營(yíng)范圍元素。

在若干家企業(yè)的經(jīng)營(yíng)范圍數(shù)據(jù)的基礎(chǔ)上,提取上述多家企業(yè)的經(jīng)營(yíng)范圍元素,并將包括用于描述經(jīng)營(yíng)范圍的有序元素序列整合為元素矩陣,該元素矩陣包括核心元素層和修飾元素層。具體的處理過(guò)程包括:首先,將經(jīng)營(yíng)范圍元素進(jìn)行簡(jiǎn)化處理。將其中無(wú)實(shí)際意義的部分進(jìn)行剔除,包括兩部分,一是助詞(如:的、了、吧)和介詞(如:在、于),二是由括號(hào)(包括小括號(hào)、中括號(hào)、大括號(hào))包括的部分。

例如:對(duì)于經(jīng)營(yíng)范圍“生產(chǎn)、加工、銷售電腦電子設(shè)備、電訊電器元件(不含國(guó)家規(guī)定的專營(yíng)商品)。教育、旅游產(chǎn)業(yè)及其他產(chǎn)業(yè)投資?!?,簡(jiǎn)化的結(jié)果為:“生產(chǎn)、加工、銷售電腦電子設(shè)備、電訊電器元件。教育、旅游產(chǎn)業(yè)及其他產(chǎn)業(yè)投資?!?/p>

然后,將經(jīng)過(guò)簡(jiǎn)化處理后的有序元素i進(jìn)行分割處理,以經(jīng)營(yíng)范圍中的連詞(如:和、或,與等)、標(biāo)點(diǎn)符號(hào)(如:逗號(hào)、頓號(hào)等)作為分割符,對(duì)經(jīng)營(yíng)范圍進(jìn)行第一次分割,分割后得到有序元素集合i,并得到元素初始分組集合。

自左至右進(jìn)行分割,若當(dāng)前位置以標(biāo)點(diǎn)符號(hào)分割,且分割的標(biāo)點(diǎn)符號(hào)與上一個(gè)分割的標(biāo)點(diǎn)符號(hào)不一致,則當(dāng)前分割符之后的元素與之前的元素不屬于同一組別。

例如,對(duì)于經(jīng)營(yíng)范圍“生產(chǎn)、加工、銷售電腦電子設(shè)備、電訊電器元件。教育、旅游產(chǎn)業(yè)及其他產(chǎn)業(yè)投資?!?,經(jīng)分割后形成的有序元素i序列為:

[生產(chǎn),加工,銷售電腦電子設(shè)備,電訊電器元件,教育,旅游產(chǎn)業(yè),其他產(chǎn)業(yè)投資]

對(duì)應(yīng)的各元素歸屬的組別序號(hào)序列如下:

[1,1,1,1,2,2,2]。

再后,將經(jīng)過(guò)第一分割處理得到的有序元素ii再次分割,對(duì)有序元素i序列若中的每一個(gè)超過(guò)兩個(gè)字的元素進(jìn)行分詞,且保留最長(zhǎng)分詞結(jié)果。

例如:

對(duì)于經(jīng)營(yíng)范圍“生產(chǎn)、加工、銷售電腦電子設(shè)備、電訊電器元件。教育、旅游產(chǎn)業(yè)及其他產(chǎn)業(yè)投資?!?,經(jīng)有序元素i分割后形成的序列:[生產(chǎn),加工,銷售電腦電子設(shè)備,電訊電器元件,教育,旅游產(chǎn)業(yè),其他產(chǎn)業(yè)投資],其對(duì)應(yīng)的各元素歸屬的組別序號(hào)序列為:[1,1,1,1,2,2,2],進(jìn)行分割后,有序元素ii的序列如下:

[生產(chǎn),加工,銷售,電腦電子設(shè)備,電訊電器元件,教育,旅游產(chǎn)業(yè),其他產(chǎn)業(yè),投資]

對(duì)應(yīng)的各元素歸屬的組別序號(hào)序列為:

[1,1,1,1,1,2,2,2,2].

最后,將經(jīng)過(guò)兩次分割處理得到的有序元素序列按元素性質(zhì)進(jìn)行分類處理。對(duì)有序元素ii序列中的元素,與歷史元素庫(kù)中的元素進(jìn)行匹配,并獲取各元素的性質(zhì),對(duì)于在歷史元素庫(kù)中不存在的,則按照元素的詞性進(jìn)行性質(zhì)分類,具體為:

動(dòng)詞、動(dòng)詞短語(yǔ)的性質(zhì)分類為核心元素;

其他詞、短語(yǔ)的性質(zhì)分類為修飾元素;

例如:

對(duì)經(jīng)過(guò)序元素ii分割后,有序元素ii的序列如下:

[生產(chǎn),加工,銷售,電腦電子設(shè)備,電訊電器元件,投資,教育,旅游產(chǎn)業(yè),其他產(chǎn)業(yè)]

進(jìn)行元素性質(zhì)分類后的有序元素iii,其性質(zhì)序列如下:

[核心,核心,核心,修飾,修飾,核心,修飾,修飾,修飾]

另外,還可以包括對(duì)元素組別調(diào)整。

對(duì)經(jīng)過(guò)元素性質(zhì)分類后的有序元素iii序列中的元素,逐個(gè)進(jìn)行掃描,若當(dāng)前元素的性質(zhì),與前一個(gè)元素的性質(zhì)不一致,且當(dāng)前元素與上一個(gè)元素屬于同一組別,且當(dāng)前元素之前的連續(xù)的同一組別的元素中,已存在“核心”、“修飾”兩種性質(zhì),則將自當(dāng)前元素之后,與當(dāng)前元素屬于同一組別的元素,變更為另一個(gè)組別。

例如:

對(duì)經(jīng)過(guò)序元素ii分割后,有序元素ii的序列如下:

[生產(chǎn),加工,銷售,電腦電子設(shè)備,電訊電器元件,投資,教育,旅游產(chǎn)業(yè),其他產(chǎn)業(yè)]

進(jìn)行元素性質(zhì)分類后,有序元素iii,其性質(zhì)序列如下:

[核心,核心,核心,修飾,修飾,核心,修飾,修飾,修飾]

對(duì)應(yīng)的各元素歸屬的組別序號(hào)序列為:

[1,1,1,1,1,1,1,1,1]

進(jìn)行元素組別調(diào)整后,有序元素iv的各元素歸屬的組別序號(hào)序列為:

[1,1,1,1,1,2,2,2,2]

s102:根據(jù)核心元素和修飾元素構(gòu)建多個(gè)特征集群。

在構(gòu)建多個(gè)特征集群后,進(jìn)一步計(jì)算每個(gè)特征集群的度量值。具體為:

首先,對(duì)全部企業(yè)經(jīng)營(yíng)范圍構(gòu)建成的有序元素iv中的核心元素、修飾元素分別進(jìn)行去重,并形成核心元素序列a、修飾元素序列b,其中,核心元素序列共ka個(gè)元素、各元素記為ai,修飾元素序列共kb個(gè)元素、各元素記為bi。

構(gòu)建核心元素層矩陣ma,大小為ka行ka列,其中各元素ai,j的定義為核心元素序列第i元素與第j元素同時(shí)出現(xiàn)的頻數(shù),即:若核心元素序列第i元素與第j元素,同時(shí)在n個(gè)企業(yè)經(jīng)營(yíng)范圍構(gòu)建成的有序元素iv的同一組別出現(xiàn),則ai,j=n。

構(gòu)建修飾元素層矩陣mb,大小為kb*kb,其中各元素bi,j的定義為修飾元素序列第i元素與第j元素同時(shí)出現(xiàn)的頻數(shù),即:若修飾元素序列第i元素與第j元素,同時(shí)在n個(gè)企業(yè)經(jīng)營(yíng)范圍構(gòu)建成的有序元素iv的同一組別出現(xiàn),則bi,j=n。

對(duì)產(chǎn)品、原材料等其他經(jīng)營(yíng)特征元素去重,并形成各個(gè)經(jīng)營(yíng)特征元素序列s1、s2…,分別稱為第n經(jīng)營(yíng)特征元素序列(例如:其中s1對(duì)應(yīng)產(chǎn)品、s2對(duì)應(yīng)原材料等),其中,第i經(jīng)營(yíng)特征元素序列共ksn個(gè)元素、各元素記為sni。

構(gòu)建經(jīng)營(yíng)特征層矩陣msn,大小為ksn*ksn,其中各元素sni,j的定義為第n經(jīng)營(yíng)特征元素序列第i元素與第j元素同時(shí)出現(xiàn)的頻數(shù),即:若第n經(jīng)營(yíng)特征元素序列第i元素與第j元素,同時(shí)在m個(gè)企業(yè)的其他經(jīng)營(yíng)特征(如:產(chǎn)品、或原材料等)中同時(shí)出現(xiàn)出現(xiàn),則sni,j=m。

以上操作中,每一個(gè)ai,可以理解為一個(gè)點(diǎn),每一個(gè)ai,j為ai和aj之間的邊,ai,j越大,則ai和aj之間連接約緊密,按此可以構(gòu)成一張點(diǎn)線相連的圖。

然后,將層矩陣按預(yù)設(shè)的分群規(guī)則進(jìn)行分群處理,得到多個(gè)初始的特征集群。

取隨機(jī)數(shù)序列vn,其中元素記為ni,數(shù)量為kn,且kn<ka;該隨機(jī)數(shù)序列符合以下要求:

在隨機(jī)數(shù)序列vn中任取兩個(gè)元素ni和nj,對(duì)于任意自然數(shù)l<ka,即隨機(jī)數(shù)序列vn中任意兩個(gè)元素所對(duì)應(yīng)的核心矩陣ma中的元素不會(huì)經(jīng)第三個(gè)元素被連接。

則vn即為核心要素層的分群中心初始序列,其中各元素即為核心要素層中群中心,ni即為核心要素層i中心,對(duì)應(yīng)的ani屬于核心要素第i群。

對(duì)于任取al,其中0<l<ka,若存在ani,l>0,則al屬于核心要素第i群;若任取0<l<ka,均有ani,l=0,則從符合al,j>0要求的j中隨機(jī)取一個(gè),令al屬于核心要素第j群。

按以上步驟可以獲得核心要素的集群歸屬序列g(shù)a,其中,元素為ga,i,ga,i定義為ai元素所在的群編號(hào),即ga,i=2意為,ai屬于核心要素第2群。

類似的取隨機(jī)數(shù)序列vm,其中元素記為mi,數(shù)量為km,且km<kb;該隨機(jī)數(shù)序列符合以下要求:

在隨機(jī)數(shù)序列vm中任取兩個(gè)元素mi和mj,對(duì)于任意自然數(shù)l<kb,即隨機(jī)數(shù)序列vm中任意兩個(gè)元素所對(duì)應(yīng)的修飾矩陣mb中的元素不會(huì)經(jīng)第三個(gè)元素被連接。

則vm即為修飾要素層的分群中心初始序列,其中各元素即為修飾要素層中群中心,mi即為修飾要素層i中心,對(duì)應(yīng)的bmi屬于修飾要素第i群。

對(duì)于任取bl,其中0<l<kb,若存在bmi,l>0,則bl屬于修飾要素第i群;若任取0<l<kb,均有bmi,l=0,則從符合bl,j>0要求的j中隨機(jī)取一個(gè),令bl屬于修飾要素第j群。

按以上步驟可以獲得修飾要素的集群歸屬序列g(shù)b,其中,元素為gb,i,gb,i定義為bi元素所在的群編號(hào),即gb,i=2意為,bi屬于修飾要素第2群。

類似的對(duì)于產(chǎn)品、原材料等其他經(jīng)營(yíng)特征元素,也可以按照上述方法,獲得對(duì)應(yīng)的經(jīng)營(yíng)特征要素的集群歸屬序列g(shù)sn,其中,元素為gsn,i,gsn,i定義為sni元素所在的群編號(hào),即gsn,i=2意為,sni屬于對(duì)應(yīng)的經(jīng)營(yíng)特征要素第2群。

再后,對(duì)每個(gè)特征集群進(jìn)行分群度量,即計(jì)算每個(gè)特征集群的度量值。

對(duì)于核心要素矩陣的每一種要素分群結(jié)果,定義其分群效果度量值為q,計(jì)算方式如下:

其中,

δ(ga,i,ga,j)的計(jì)算方式為:當(dāng)ga,i=ga,j時(shí),δ(ga,i,ga,j)=1,否則δ(ga,i,ga,j)=0

類似的對(duì)于修飾要素矩陣、其他經(jīng)營(yíng)特征要素矩陣的每一種要素分群結(jié)果,定義其分群效果度量值為qb、qs1、qs2、…,計(jì)算方式如下:

其中,

δ(gb,i,gb,j)的計(jì)算方式為:當(dāng)gb,i=gb,j時(shí),δ(gb,i,gb,j)=1,否則δ(gb,i,gb,j)=0

其中,

δ(gsn,i,gsn,j)的計(jì)算方式為:當(dāng)gsn,i=gsn,j時(shí),δ(gsn,i,gsn,j)=1,否則δ(gsn,i,gsn,j)=0

優(yōu)選的,該分群度量值,采用的是newman提出的q-modularity度量方法,該方法屬于公開(kāi)方法,這里不再詳細(xì)介紹。

最后,對(duì)上述特征集群進(jìn)行調(diào)整處理。

任取ai,其中0<i<ka,取j=0,1,2…,ka,且i≠j,若ga,i≠ga,j,則令ga,i=ga,j,計(jì)算分群度量q’,若q’>q,則保留本次賦值,否則撤銷本次賦值。

對(duì)a中全部ai,進(jìn)行上述步驟,直至本輪中所有交換導(dǎo)致的q’均不小于q。則當(dāng)前ga即為核心元素層的分群結(jié)果,其中分群的個(gè)數(shù)為kga。

類似的可以獲得修飾元素層的分群結(jié)果gb,其中分群的個(gè)數(shù)為kgb,以及各個(gè)其他經(jīng)營(yíng)特征元素層的分群結(jié)果gsn,其中分群的個(gè)數(shù)為kgsn

以上操作實(shí)質(zhì)是對(duì)每一個(gè)元素的歸屬,調(diào)整為就近的其他群,然后計(jì)算q值,并保留那些能讓q值變大的調(diào)整。

s103:構(gòu)建目標(biāo)企業(yè)的企業(yè)特征矩陣。

提取需要對(duì)標(biāo)的目標(biāo)企業(yè)的經(jīng)營(yíng)范圍元素,形成有序元素iv序列,并構(gòu)成核心元素向量va、修飾元素向量vb,構(gòu)成企業(yè)特征矩陣。

核心元素向量va的大小為1*ka,其中元素wa,i的定義如下:

若核心元素序列a中元素ai,在當(dāng)前企業(yè)的有序元素iv序列中,則wa,i=1,否則為wa,i=0;

類似的修飾元素向量vb的大小為1*kb,其中元素wb,i的定義如下:

若修飾元素序列b中元素bi,在當(dāng)前企業(yè)的有序元素iv序列中,則wb,i=1,否則為wb,i=0。

類似的其他經(jīng)營(yíng)特征元素向量vsn的大小為1*ksn,其中元素wsn,i的定義如下:

若其他經(jīng)營(yíng)特征元素序列sn中元素sni,在當(dāng)前企業(yè)的第n個(gè)其他經(jīng)營(yíng)特征中,則wsn,i=1,否則為wsn,i=0。

構(gòu)建的矩陣mc大小為ka*kb,其定義為:vb=va·mc

s104:計(jì)算目標(biāo)企業(yè)與每個(gè)企業(yè)的相似度。

對(duì)于需要對(duì)標(biāo)的目標(biāo)企業(yè)來(lái)說(shuō),其特征為va、vb、mc、vs1、vs2…,任取一家企業(yè)作為比照企業(yè),其特征為v′a、v′b、m′c、v′s1、v′s2…,其兩者的相似度定義為pi:

其中,γa、γb、γ1、…為大于0的系數(shù),pa、pb、pn、…分別為核心元素相似度、修飾元素相似度、其他經(jīng)營(yíng)特征元素相似度,具體計(jì)算方式如下:

對(duì)于目標(biāo)企業(yè),其核心元素群歸屬特征為fa,元素總數(shù)為kga,各元素為fa,i,具體定義為:

若ga,i=j(luò),則αj=1,否則αj=0。

fa實(shí)質(zhì)上是目標(biāo)企業(yè)經(jīng)營(yíng)范圍中的各個(gè)核心元素,在各個(gè)核心元素各分群中出現(xiàn)的次數(shù),最終形成的向量形如[4,5,0,0,6]。

類似的對(duì)于比照企業(yè),可以取得其核心元素群歸屬特征為fai。

對(duì)于目標(biāo)企業(yè)和比照企業(yè)而言,兩家企業(yè)的核心元素相似度pa,i計(jì)算方式如下:

核心元素相似度的實(shí)質(zhì),為兩家企業(yè)核心元素群歸屬特征的余弦距離。

對(duì)于目標(biāo)企業(yè),其修飾元素群歸屬特征為fb,元素總數(shù)為kgb,各元素為fb,i,具體定義為,任取0<j<kgb,若存在gb,i=j(luò),則fb,i=1,否則fb,i=0。

fb實(shí)質(zhì)上是目標(biāo)企業(yè)經(jīng)營(yíng)范圍中的各個(gè)修飾元素,在各個(gè)修飾元素各分群中是否出現(xiàn),若出現(xiàn)則為1,否則為0。fb的定義與fa不一致,主要考慮核心元素的在分群中的多寡,關(guān)系到企業(yè)在該領(lǐng)域內(nèi)經(jīng)營(yíng)的側(cè)重,而修飾元素并無(wú)此特性。

類似的對(duì)于比照企業(yè),可以取得其修飾元素群歸屬特征為fbi。

對(duì)于目標(biāo)企業(yè)和比照企業(yè)而言,兩家企業(yè)的修飾元素相似度pb,i計(jì)算方式如下:

與核心元素相似度相似,修飾元素相似度的實(shí)質(zhì),為兩家企業(yè)相似元素群歸屬特征的余弦距離。

此外,對(duì)于比照企業(yè)修飾元素群歸屬特征fbi中的元素fib,i≠fb,i的元素,可以按照如下方式計(jì)算其替代歸屬特征:

其中,

其中,若f′b,j≠fb,j,則σj=1,否則σj=0

以替代歸屬特征替換歸屬特征獲得的特征向量,稱為歸屬特征替代向量則對(duì)應(yīng)的替代相似度如下:

替代特征實(shí)質(zhì)上,比照企業(yè)的元素歸屬群中與目標(biāo)企業(yè)的元素歸屬群不一致的一個(gè)群,與目標(biāo)企業(yè)的元素歸屬群的連接強(qiáng)度,其數(shù)值是比照企業(yè)的元素歸屬群與目標(biāo)企業(yè)的元素歸屬群的連接數(shù),除以目標(biāo)企業(yè)的元素歸屬群與全部其他元素歸屬群的連接數(shù)。

與修飾元素相似度類似,可以計(jì)算得其他經(jīng)營(yíng)特征相似度ps1、ps2…,以及其他經(jīng)營(yíng)特征的替代相似度

與核心元素相似度相似,修飾元素相似度的實(shí)質(zhì)為兩家企業(yè)相似元素群歸屬特征的余弦距離。

s105:根據(jù)目標(biāo)企業(yè)與其他企業(yè)的相似度確定對(duì)標(biāo)企業(yè)名單。

對(duì)于目標(biāo)企業(yè)的行業(yè)對(duì)標(biāo),可以采用以下兩種方式之一確定對(duì)標(biāo)企業(yè)名單:

一種為設(shè)定企業(yè)相似度閾值,將企業(yè)經(jīng)營(yíng)范圍數(shù)據(jù)庫(kù)中,與目標(biāo)企業(yè)的相似度高于閾值的企業(yè),添加到對(duì)標(biāo)企業(yè)名單;

另一種為設(shè)定企業(yè)對(duì)標(biāo)數(shù)量,對(duì)企業(yè)經(jīng)營(yíng)范圍數(shù)據(jù)庫(kù)中的企業(yè),計(jì)算其與目標(biāo)企業(yè)的相似度,并按照相似度從高到低進(jìn)行排序,取前一定數(shù)量的企業(yè),添加到對(duì)標(biāo)企業(yè)名單;

或者以上兩種方式,確定對(duì)標(biāo)的企業(yè)名單,即:

設(shè)定企業(yè)對(duì)標(biāo)數(shù)量和企業(yè)相似度閾值。對(duì)企業(yè)經(jīng)營(yíng)范圍數(shù)據(jù)庫(kù)中的企業(yè),計(jì)算其與目標(biāo)企業(yè)的相似度,并按照相似度從高到低進(jìn)行排序,取前一定數(shù)量的企業(yè),且相似度高于閾值的企業(yè),添加到對(duì)標(biāo)企業(yè)名單。

在以上方法中,若對(duì)對(duì)標(biāo)企業(yè)名單中數(shù)量有下限要求,則可以將修飾元素、其他經(jīng)營(yíng)特征元素的相似度,替換為對(duì)應(yīng)的替代相似度進(jìn)行計(jì)算,以替代相似度與閾值比較,或者進(jìn)行排序,以提取符合要求的對(duì)標(biāo)企業(yè)名單。

從上述技術(shù)方案可以看出,本實(shí)施例提供了一種對(duì)標(biāo)企業(yè)名單的篩選方法,具體為提取預(yù)設(shè)的多個(gè)比照企業(yè)的經(jīng)營(yíng)范圍的有序元素序列,并對(duì)有序元素序列進(jìn)行去重和分割,得到比照企業(yè)的經(jīng)營(yíng)范圍的核心元素和修飾元素,同時(shí),對(duì)企業(yè)其他經(jīng)營(yíng)特征(如:產(chǎn)品、原材料等離散的特征)的有序元素進(jìn)行去重,得到比照企業(yè)的其他經(jīng)營(yíng)特征元素;根據(jù)核心元素、修飾元素和其他經(jīng)營(yíng)特征元素構(gòu)建多個(gè)特征集群,并對(duì)每個(gè)特征集群進(jìn)行分群度量,得到每個(gè)特征集群的度量值;構(gòu)建需要對(duì)標(biāo)的目標(biāo)企業(yè)的企業(yè)特征矩陣,企業(yè)特征矩陣包括目標(biāo)企業(yè)的核心元素向量、修飾元素向量和其他經(jīng)營(yíng)特征元素向量;根據(jù)企業(yè)特征矩陣和度量值計(jì)算目標(biāo)企業(yè)與每個(gè)比照企業(yè)之間的相似度;根據(jù)相似度從多個(gè)比照企業(yè)中確定對(duì)標(biāo)企業(yè)名單,從而實(shí)現(xiàn)了為行業(yè)對(duì)標(biāo)分析提供對(duì)標(biāo)企業(yè)名單。

需要說(shuō)明的是,對(duì)于方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明實(shí)施例并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明實(shí)施例,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書(shū)中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作并不一定是本發(fā)明實(shí)施例所必須的。

實(shí)施例二

圖2為本發(fā)明提供的一種對(duì)標(biāo)企業(yè)名單的篩選裝置實(shí)施例的結(jié)構(gòu)框圖。

本實(shí)施例的裝置可以理解為電子計(jì)算裝置,該電子計(jì)算裝置可以位于本地終端的應(yīng)用,或者還可以為位于本地終端的應(yīng)用中的插件或軟件開(kāi)發(fā)工具包(softwaredevelopmentkit,sdk)等功能單元,本發(fā)明實(shí)施例對(duì)此不進(jìn)行特別限定。

可以理解的是,應(yīng)用可以是安裝在終端上的應(yīng)用程序(nativeapp),或者還可以是終端上的瀏覽器的一個(gè)網(wǎng)頁(yè)程序(webapp),本發(fā)明實(shí)施例對(duì)此不進(jìn)行限定。

如圖2所示,本實(shí)施例提供的對(duì)比企業(yè)名單的篩選裝置具體包括數(shù)據(jù)提取模塊10、特征集群構(gòu)建模塊20、特征矩陣構(gòu)建模塊30、相似度技術(shù)模塊40和對(duì)標(biāo)名單確定模塊。

數(shù)據(jù)提前模塊用于提取預(yù)設(shè)的多家企業(yè)的經(jīng)營(yíng)范圍元素。

在若干家企業(yè)的經(jīng)營(yíng)范圍數(shù)據(jù)的基礎(chǔ)上,提取上述多家企業(yè)的經(jīng)營(yíng)范圍元素,并將包括用于描述經(jīng)營(yíng)范圍的有序元素序列整合為元素矩陣,該元素矩陣包括核心元素層和修飾元素層。

該模塊包括序列簡(jiǎn)化單元11、第一分割單元12、第二分割單元13和分類處理單元14,具體的處理時(shí),序列簡(jiǎn)化單元用于將經(jīng)營(yíng)范圍元素進(jìn)行簡(jiǎn)化處理。將其中無(wú)實(shí)際意義的部分進(jìn)行剔除,包括兩部分,一是助詞(如:的、了、吧)和介詞(如:在、于),二是由括號(hào)(包括小括號(hào)、中括號(hào)、大括號(hào))包括的部分。

例如:對(duì)于經(jīng)營(yíng)范圍“生產(chǎn)、加工、銷售電腦電子設(shè)備、電訊電器元件(不含國(guó)家規(guī)定的專營(yíng)商品)。教育、旅游產(chǎn)業(yè)及其他產(chǎn)業(yè)投資?!?,簡(jiǎn)化的結(jié)果為:“生產(chǎn)、加工、銷售電腦電子設(shè)備、電訊電器元件。教育、旅游產(chǎn)業(yè)及其他產(chǎn)業(yè)投資?!?/p>

第一分割單元用于將經(jīng)過(guò)簡(jiǎn)化處理后的有序元素i進(jìn)行分割處理,以經(jīng)營(yíng)范圍中的連詞(如:和、或,與等)、標(biāo)點(diǎn)符號(hào)(如:逗號(hào)、頓號(hào)等)作為分割符,對(duì)經(jīng)營(yíng)范圍進(jìn)行第一次分割,分割后得到有序元素集合i,并得到元素初始分組集合。

自左至右進(jìn)行分割,若當(dāng)前位置以標(biāo)點(diǎn)符號(hào)分割,且分割的標(biāo)點(diǎn)符號(hào)與上一個(gè)分割的標(biāo)點(diǎn)符號(hào)不一致,則當(dāng)前分割符之后的元素與之前的元素不屬于同一組別。

例如,對(duì)于經(jīng)營(yíng)范圍“生產(chǎn)、加工、銷售電腦電子設(shè)備、電訊電器元件。教育、旅游產(chǎn)業(yè)及其他產(chǎn)業(yè)投資。”,經(jīng)分割后形成的有序元素i序列為:

[生產(chǎn),加工,銷售電腦電子設(shè)備,電訊電器元件,教育,旅游產(chǎn)業(yè),其他產(chǎn)業(yè)投資]

對(duì)應(yīng)的各元素歸屬的組別序號(hào)序列如下:

[1,1,1,1,2,2,2]。

第二分割單元用于將經(jīng)過(guò)第一分割處理得到的有序元素ii再次分割,對(duì)有序元素i序列若中的每一個(gè)超過(guò)兩個(gè)字的元素進(jìn)行分詞,且保留最長(zhǎng)分詞結(jié)果。

例如:

對(duì)于經(jīng)營(yíng)范圍“生產(chǎn)、加工、銷售電腦電子設(shè)備、電訊電器元件。教育、旅游產(chǎn)業(yè)及其他產(chǎn)業(yè)投資?!?,經(jīng)有序元素i分割后形成的序列:[生產(chǎn),加工,銷售電腦電子設(shè)備,電訊電器元件,教育,旅游產(chǎn)業(yè),其他產(chǎn)業(yè)投資],其對(duì)應(yīng)的各元素歸屬的組別序號(hào)序列為:[1,1,1,1,2,2,2],進(jìn)行分割后,有序元素ii的序列如下:

[生產(chǎn),加工,銷售,電腦電子設(shè)備,電訊電器元件,教育,旅游產(chǎn)業(yè),其他產(chǎn)業(yè),投資]

對(duì)應(yīng)的各元素歸屬的組別序號(hào)序列為:

[1,1,1,1,1,2,2,2,2].

分類處理單元用于將經(jīng)過(guò)兩次分割處理得到的有序元素序列按元素性質(zhì)進(jìn)行分類處理。對(duì)有序元素ii序列中的元素,與歷史元素庫(kù)中的元素進(jìn)行匹配,并獲取各元素的性質(zhì),對(duì)于在歷史元素庫(kù)中不存在的,則按照元素的詞性進(jìn)行性質(zhì)分類,具體為:

動(dòng)詞、動(dòng)詞短語(yǔ)的性質(zhì)分類為核心元素;

其他詞、短語(yǔ)的性質(zhì)分類為修飾元素;

例如:

對(duì)經(jīng)過(guò)序元素ii分割后,有序元素ii的序列如下:

[生產(chǎn),加工,銷售,電腦電子設(shè)備,電訊電器元件,投資,教育,旅游產(chǎn)業(yè),其他產(chǎn)業(yè)]

進(jìn)行元素性質(zhì)分類后的有序元素iii,其性質(zhì)序列如下:

[核心,核心,核心,修飾,修飾,核心,修飾,修飾,修飾]

另外,該模塊還包括組別調(diào)整單元15,該單元用于對(duì)元素組別調(diào)整。

對(duì)經(jīng)過(guò)元素性質(zhì)分類后的有序元素iii序列中的元素,逐個(gè)進(jìn)行掃描,若當(dāng)前元素的性質(zhì),與前一個(gè)元素的性質(zhì)不一致,且當(dāng)前元素與上一個(gè)元素屬于同一組別,且當(dāng)前元素之前的連續(xù)的同一組別的元素中,已存在“核心”、“修飾”兩種性質(zhì),則將自當(dāng)前元素之后,與當(dāng)前元素屬于同一組別的元素,變更為另一個(gè)組別。

例如:

對(duì)經(jīng)過(guò)序元素ii分割后,有序元素ii的序列如下:

[生產(chǎn),加工,銷售,電腦電子設(shè)備,電訊電器元件,投資,教育,旅游產(chǎn)業(yè),其他產(chǎn)業(yè)]

進(jìn)行元素性質(zhì)分類后,有序元素iii,其性質(zhì)序列如下:

[核心,核心,核心,修飾,修飾,核心,修飾,修飾,修飾]

對(duì)應(yīng)的各元素歸屬的組別序號(hào)序列為:

[1,1,1,1,1,1,1,1,1]

進(jìn)行元素組別調(diào)整后,有序元素iv的各元素歸屬的組別序號(hào)序列為:

[1,1,1,1,1,2,2,2,2]

特征集群構(gòu)建模塊用于根據(jù)核心元素和修飾元素構(gòu)建多個(gè)特征集群。

在構(gòu)建多個(gè)特征集群后,進(jìn)一步計(jì)算每個(gè)特征集群的度量值。該模塊包括去重處理單元21、分群處理單元22、度量值計(jì)算單元23和集群調(diào)整單元24。

去重處理單元用于對(duì)全部企業(yè)經(jīng)營(yíng)范圍構(gòu)建成的有序元素iv中的核心元素、修飾元素分別進(jìn)行去重,并形成核心元素序列a、修飾元素序列b,其中,核心元素序列共ka個(gè)元素、各元素記為ai,修飾元素序列共kb個(gè)元素、各元素記為bi。

構(gòu)建核心元素層矩陣ma,大小為ka行ka列,其中各元素ai,j的定義為核心元素序列第i元素與第j元素同時(shí)出現(xiàn)的頻數(shù),即:若核心元素序列第i元素與第j元素,同時(shí)在n個(gè)企業(yè)經(jīng)營(yíng)范圍構(gòu)建成的有序元素iv的同一組別出現(xiàn),則ai,j=n。

構(gòu)建修飾元素層矩陣mb,大小為kb*kb,其中各元素bi,j的定義為修飾元素序列第i元素與第j元素同時(shí)出現(xiàn)的頻數(shù),即:若修飾元素序列第i元素與第j元素,同時(shí)在n個(gè)企業(yè)經(jīng)營(yíng)范圍構(gòu)建成的有序元素iv的同一組別出現(xiàn),則bi,j=n。

對(duì)產(chǎn)品、原材料等其他經(jīng)營(yíng)特征元素去重,并形成各個(gè)經(jīng)營(yíng)特征元素序列s1、s2…,分別稱為第n經(jīng)營(yíng)特征元素序列(例如:其中s1對(duì)應(yīng)產(chǎn)品、s2對(duì)應(yīng)原材料等),其中,第i經(jīng)營(yíng)特征元素序列共ksn個(gè)元素、各元素記為sni。

構(gòu)建經(jīng)營(yíng)特征層矩陣msn,大小為ksn*ksn,其中各元素sni,j的定義為第n經(jīng)營(yíng)特征元素序列第i元素與第j元素同時(shí)出現(xiàn)的頻數(shù),即:若第n經(jīng)營(yíng)特征元素序列第i元素與第j元素,同時(shí)在m個(gè)企業(yè)的其他經(jīng)營(yíng)特征(如:產(chǎn)品、或原材料等)中同時(shí)出現(xiàn)出現(xiàn),則sni,j=m。

以上操作中,每一個(gè)ai,可以理解為一個(gè)點(diǎn),每一個(gè)ai,j為ai和aj之間的邊,ai,j越大,則ai和aj之間連接約緊密,按此可以構(gòu)成一張點(diǎn)線相連的圖。

分群處理單元將層矩陣按預(yù)設(shè)的分群規(guī)則進(jìn)行分群處理,得到多個(gè)初始的特征集群。

取隨機(jī)數(shù)序列vn,其中元素記為ni,數(shù)量為kn,且kn<ka;該隨機(jī)數(shù)序列符合以下要求:

在隨機(jī)數(shù)序列vn中任取兩個(gè)元素ni和nj,對(duì)于任意自然數(shù)l<ka,即隨機(jī)數(shù)序列vn中任意兩個(gè)元素所對(duì)應(yīng)的核心矩陣ma中的元素不會(huì)經(jīng)第三個(gè)元素被連接。

則vn即為核心要素層的分群中心初始序列,其中各元素即為核心要素層中群中心,ni即為核心要素層i中心,對(duì)應(yīng)的ani屬于核心要素第i群。

對(duì)于任取al,其中0<l<ka,若存在ani,l>0,則al屬于核心要素第i群;若任取0<l<ka,均有ani,l=0,則從符合al,j>0要求的j中隨機(jī)取一個(gè),令al屬于核心要素第j群。

按以上步驟可以獲得核心要素的集群歸屬序列g(shù)a,其中,元素為ga,i,ga,i定義為ai元素所在的群編號(hào),即ga,i=2意為,ai屬于核心要素第2群。

類似的取隨機(jī)數(shù)序列vm,其中元素記為mi,數(shù)量為km,且km<kb;該隨機(jī)數(shù)序列符合以下要求:

在隨機(jī)數(shù)序列vm中任取兩個(gè)元素mi和mj,對(duì)于任意自然數(shù)l<kb,即隨機(jī)數(shù)序列vm中任意兩個(gè)元素所對(duì)應(yīng)的修飾矩陣mb中的元素不會(huì)經(jīng)第三個(gè)元素被連接。

則vm即為修飾要素層的分群中心初始序列,其中各元素即為修飾要素層中群中心,mi即為修飾要素層i中心,對(duì)應(yīng)的bmi屬于修飾要素第i群。

對(duì)于任取bl,其中0<l<kb,若存在bmi,l>0,則bl屬于修飾要素第i群;若任取0<l<kb,均有bmi,l=0,則從符合bl,j>0要求的j中隨機(jī)取一個(gè),令bl屬于修飾要素第j群。

按以上步驟可以獲得修飾要素的集群歸屬序列g(shù)b,其中,元素為gb,i,gb,i定義為bi元素所在的群編號(hào),即gb,i=2意為,bi屬于修飾要素第2群。

類似的對(duì)于產(chǎn)品、原材料等其他經(jīng)營(yíng)特征元素,也可以按照上述方法,獲得對(duì)應(yīng)的經(jīng)營(yíng)特征要素的集群歸屬序列g(shù)sn,其中,元素為gsn,i,gsn,i定義為sni元素所在的群編號(hào),即gsn,i=2意為,sni屬于對(duì)應(yīng)的經(jīng)營(yíng)特征要素第2群。

度量值計(jì)算單元用于對(duì)每個(gè)特征集群進(jìn)行分群度量,即計(jì)算每個(gè)特征集群的度量值。

對(duì)于核心要素矩陣的每一種要素分群結(jié)果,定義其分群效果度量值為q,計(jì)算方式如下:

其中,

δ(ga,i,ga,j)的計(jì)算方式為:當(dāng)ga,i=ga,j時(shí),δ(ga,i,ga,j)=1,否則δ(ga,i,ga,j)=0

類似的對(duì)于修飾要素矩陣、其他經(jīng)營(yíng)特征要素矩陣的每一種要素分群結(jié)果,定義其分群效果度量值為qb、qs1、qs2、…,計(jì)算方式如下:

其中,

δ(gb,i,gb,j)的計(jì)算方式為:當(dāng)gb,i=gb,j時(shí),δ(gb,i,gb,j)=1,否則δ(gb,i,gb,j)=0

其中,

δ(gsn,i,gsn,j)的計(jì)算方式為:當(dāng)gsn,i=gsn,j時(shí),δ(gsn,i,gsn,j)=1,否則δ(gsn,i,gsn,j)=0

優(yōu)選的,該分群度量值,采用的是newman提出的q-modularity度量方法,該方法屬于公開(kāi)方法,這里不再詳細(xì)介紹。

集群調(diào)整單元用于對(duì)上述特征集群進(jìn)行調(diào)整處理。

任取ai,其中0<i<ka,取j=0,1,2…,ka,且i≠j,若ga,i≠ga,j,則令ga,i=ga,j,計(jì)算分群度量q’,若q’>q,則保留本次賦值,否則撤銷本次賦值。

對(duì)a中全部ai,進(jìn)行上述步驟,直至本輪中所有交換導(dǎo)致的q’均不小于q。則當(dāng)前ga即為核心元素層的分群結(jié)果,其中分群的個(gè)數(shù)為kga。

類似的可以獲得修飾元素層的分群結(jié)果gb,其中分群的個(gè)數(shù)為kgb,以及各個(gè)其他經(jīng)營(yíng)特征元素層的分群結(jié)果gsn,其中分群的個(gè)數(shù)為kgsn

以上操作實(shí)質(zhì)是對(duì)每一個(gè)元素的歸屬,調(diào)整為就近的其他群,然后計(jì)算q值,并保留那些能讓q值變大的調(diào)整。

特征矩陣構(gòu)建模塊用于構(gòu)建目標(biāo)企業(yè)的企業(yè)特征矩陣。

提取需要對(duì)標(biāo)的目標(biāo)企業(yè)的經(jīng)營(yíng)范圍元素,形成有序元素iv序列,并構(gòu)成核心元素向量va、修飾元素向量vb,構(gòu)成企業(yè)特征矩陣。

核心元素向量va的大小為1*ka,其中元素wa,i的定義如下:

若核心元素序列a中元素ai,在當(dāng)前企業(yè)的有序元素iv序列中,則wa,i=1,否則為wa,i=0;

類似的修飾元素向量vb的大小為1*kb,其中元素wb,i的定義如下:

若修飾元素序列b中元素bi,在當(dāng)前企業(yè)的有序元素iv序列中,則wb,i=1,否則為wb,i=0。

類似的其他經(jīng)營(yíng)特征元素向量vsn的大小為1*ksn,其中元素wsn,i的定義如下:

若其他經(jīng)營(yíng)特征元素序列sn中元素sni,在當(dāng)前企業(yè)的第n個(gè)其他經(jīng)營(yíng)特征中,則wsn,i=1,否則為wsn,i=0。

構(gòu)建的矩陣mc大小為ka*kb,其定義為:vb=va·mc

相似度計(jì)算模塊用于計(jì)算目標(biāo)企業(yè)與每個(gè)企業(yè)的相似度。

對(duì)于需要對(duì)標(biāo)的目標(biāo)企業(yè)來(lái)說(shuō),其特征為va、vb、mc、vs1、vs2…,任取一家企業(yè)作為比照企業(yè),其特征為v′a、v′b、m′c、v′s1、v′s2…,其兩者的相似度定義為pi:

其中,γa、γb、γ1、…為大于0的系數(shù),pa、pb、pn、…分別為核心元素相似度、修飾元素相似度、其他經(jīng)營(yíng)特征元素相似度,具體計(jì)算方式如下:

對(duì)于目標(biāo)企業(yè),其核心元素群歸屬特征為fa,元素總數(shù)為kga,各元素為fa,i,具體定義為:

若ga,i=j(luò),則αj=1,否則αj=0。

fa實(shí)質(zhì)上是目標(biāo)企業(yè)經(jīng)營(yíng)范圍中的各個(gè)核心元素,在各個(gè)核心元素各分群中出現(xiàn)的次數(shù),最終形成的向量形如[4,5,0,0,6]。

類似的對(duì)于比照企業(yè),可以取得其核心元素群歸屬特征為fai

對(duì)于目標(biāo)企業(yè)和比照企業(yè)而言,兩家企業(yè)的核心元素相似度pa,i計(jì)算方式如下:

核心元素相似度的實(shí)質(zhì),為兩家企業(yè)核心元素群歸屬特征的余弦距離。

對(duì)于目標(biāo)企業(yè),其修飾元素群歸屬特征為fb,元素總數(shù)為kgb,各元素為fb,i,具體定義為,任取0<j<kgb,若存在gb,i=j(luò),則fb,i=1,否則fb,i=0。

fb實(shí)質(zhì)上是目標(biāo)企業(yè)經(jīng)營(yíng)范圍中的各個(gè)修飾元素,在各個(gè)修飾元素各分群中是否出現(xiàn),若出現(xiàn)則為1,否則為0。fb的定義與fa不一致,主要考慮核心元素的在分群中的多寡,關(guān)系到企業(yè)在該領(lǐng)域內(nèi)經(jīng)營(yíng)的側(cè)重,而修飾元素并無(wú)此特性。

類似的對(duì)于比照企業(yè),可以取得其修飾元素群歸屬特征為fbi。

對(duì)于目標(biāo)企業(yè)和比照企業(yè)而言,兩家企業(yè)的修飾元素相似度pb,i計(jì)算方式如下:

與核心元素相似度相似,修飾元素相似度的實(shí)質(zhì),為兩家企業(yè)相似元素群歸屬特征的余弦距離。

此外,對(duì)于比照企業(yè)修飾元素群歸屬特征fbi中的元素fib,i≠fb,i的元素,可以按照如下方式計(jì)算其替代歸屬特征:

其中,

其中,若f′b,j≠fb,j,則σj=1,否則σj=0

以替代歸屬特征替換歸屬特征獲得的特征向量,稱為歸屬特征替代向量則對(duì)應(yīng)的替代相似度如下:

替代特征實(shí)質(zhì)上,比照企業(yè)的元素歸屬群中與目標(biāo)企業(yè)的元素歸屬群不一致的一個(gè)群,與目標(biāo)企業(yè)的元素歸屬群的連接強(qiáng)度,其數(shù)值是比照企業(yè)的元素歸屬群與目標(biāo)企業(yè)的元素歸屬群的連接數(shù),除以目標(biāo)企業(yè)的元素歸屬群與全部其他元素歸屬群的連接數(shù)。

與修飾元素相似度類似,可以計(jì)算得其他經(jīng)營(yíng)特征相似度ps1、ps2…,以及其他經(jīng)營(yíng)特征的替代相似度

與核心元素相似度相似,修飾元素相似度的實(shí)質(zhì)為兩家企業(yè)相似元素群歸屬特征的余弦距離。

對(duì)標(biāo)名單確定模塊用于根據(jù)目標(biāo)企業(yè)與其他企業(yè)的相似度確定對(duì)標(biāo)企業(yè)名單。該模塊包括第一確定單元51和第二確定單元52。

第一確定單元用于設(shè)定企業(yè)相似度閾值,然后將企業(yè)經(jīng)營(yíng)范圍數(shù)據(jù)庫(kù)中,與目標(biāo)企業(yè)的相似度高于閾值的企業(yè),添加到對(duì)標(biāo)企業(yè)名單;

第二確定單元用于設(shè)定企業(yè)對(duì)標(biāo)數(shù)量,然后對(duì)企業(yè)經(jīng)營(yíng)范圍數(shù)據(jù)庫(kù)中的企業(yè),計(jì)算其與目標(biāo)企業(yè)的相似度,并按照相似度從高到低進(jìn)行排序,取前一定數(shù)量的企業(yè),添加到對(duì)標(biāo)企業(yè)名單;

或者以上兩種方式,確定對(duì)標(biāo)的企業(yè)名單,即:

設(shè)定企業(yè)對(duì)標(biāo)數(shù)量和企業(yè)相似度閾值。對(duì)企業(yè)經(jīng)營(yíng)范圍數(shù)據(jù)庫(kù)中的企業(yè),計(jì)算其與目標(biāo)企業(yè)的相似度,并按照相似度從高到低進(jìn)行排序,取前一定數(shù)量的企業(yè),且相似度高于閾值的企業(yè),添加到對(duì)標(biāo)企業(yè)名單。

在以上方法中,若對(duì)對(duì)標(biāo)企業(yè)名單中數(shù)量有下限要求,則可以將修飾元素、其他經(jīng)營(yíng)特征元素的相似度,替換為對(duì)應(yīng)的替代相似度進(jìn)行計(jì)算,以替代相似度與閾值比較,或者進(jìn)行排序,以提取符合要求的對(duì)標(biāo)企業(yè)名單。

從上述技術(shù)方案可以看出,本實(shí)施例提供了一種對(duì)標(biāo)企業(yè)名單的篩選裝置,具體為提取預(yù)設(shè)的多個(gè)比照企業(yè)的經(jīng)營(yíng)范圍的有序元素序列,并對(duì)有序元素序列進(jìn)行去重和分割,得到比照企業(yè)的經(jīng)營(yíng)范圍的核心元素和修飾元素;根據(jù)核心元素和修飾元素構(gòu)建多個(gè)特征集群,并對(duì)每個(gè)特征集群進(jìn)行分群度量,得到每個(gè)特征集群的度量值;構(gòu)建需要對(duì)標(biāo)的目標(biāo)企業(yè)的企業(yè)特征矩陣,企業(yè)特征矩陣包括目標(biāo)企業(yè)的核心元素向量和修飾元素向量;根據(jù)企業(yè)特征矩陣和度量值計(jì)算目標(biāo)企業(yè)與每個(gè)比照企業(yè)之間的相似度;根據(jù)相似度從多個(gè)比照企業(yè)中確定對(duì)標(biāo)企業(yè)名單,從而實(shí)現(xiàn)了為行業(yè)對(duì)標(biāo)分析提供對(duì)標(biāo)企業(yè)名單。

對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。

本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可。

本領(lǐng)域普通技術(shù)人員可以意識(shí)到,結(jié)合本文中所公開(kāi)的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來(lái)實(shí)現(xiàn)。這些功能究竟以硬件還是軟件方式來(lái)執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來(lái)使用不同方法來(lái)實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。

所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng)、裝置和單元的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。

在本申請(qǐng)所提供的實(shí)施例中,應(yīng)該理解到,所揭露的裝置和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。

所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。

另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。

所述功能如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤(pán)、移動(dòng)硬盤(pán)、rom、ram、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。

以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求的保護(hù)范圍為準(zhǔn)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1