團(tuán)隊信息的確定方法和確定裝置與流程

文檔序號：12825090閱讀：372來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及大數(shù)據(jù)領(lǐng)域，具體而言，本發(fā)明涉及一種團(tuán)隊信息的確定方法和一種團(tuán)隊信息的確定裝置。

背景技術(shù)：

隨著科學(xué)技術(shù)的飛速發(fā)展，科學(xué)技術(shù)的分支也越來越多，而科學(xué)技術(shù)的分支交叉發(fā)展致使傳統(tǒng)的學(xué)科間界限變得越來越模糊。由于各學(xué)科之間的交叉性和滲透性達(dá)到了前所未有的程度,科研人員不僅需要獨(dú)立思考和研究,而且還需要科研團(tuán)隊的支持。

科研團(tuán)隊是指以科技研究和開發(fā)為內(nèi)容，由能夠技能互補(bǔ)并愿意為共同的科研目的和方法相互承擔(dān)責(zé)任的科研人員組成的群體。其中，科研團(tuán)隊可分為顯性科研團(tuán)隊和隱性科研團(tuán)隊。顯性科研團(tuán)隊是以固定的機(jī)構(gòu)，如，課題組、實驗室為標(biāo)準(zhǔn)而建立的科研團(tuán)隊，或者是由學(xué)術(shù)組織人組織科研人員來構(gòu)成的機(jī)構(gòu)團(tuán)隊或?qū)W術(shù)團(tuán)隊。隱性科研團(tuán)隊是具有明確的研究目標(biāo)或研究方向和研究平臺，并結(jié)合已有或者存在潛在的合作基礎(chǔ)而形成的團(tuán)隊。

在現(xiàn)有技術(shù)中，科研團(tuán)隊的確定方法一般基于人工調(diào)查、采集數(shù)據(jù)來實現(xiàn)，或是通過大型文獻(xiàn)數(shù)據(jù)庫建立整體網(wǎng)絡(luò)和數(shù)據(jù)挖掘算法實現(xiàn)。但是這些科研團(tuán)隊的確定方法不僅耗費(fèi)了較高的人工成本、還耗費(fèi)了大量的時間、且最后確定到的科研團(tuán)隊的結(jié)果也不夠全面。

技術(shù)實現(xiàn)要素：

為克服上述技術(shù)問題或者至少部分地解決上述技術(shù)問題，特提出以下技術(shù)方案：

本發(fā)明的一個實施例提出了一種團(tuán)隊信息的確定方法，包括：

基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個機(jī)構(gòu)名稱信息，來創(chuàng)建機(jī)構(gòu)信息庫；

基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個著者姓名信息，并結(jié)合文本數(shù)據(jù)和機(jī)構(gòu)信息庫來創(chuàng)建人員信息庫；

基于獲取到的任一文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息，針對任一著者選擇對應(yīng)于該任一著者的主題信息，來創(chuàng)建主題信息庫；

基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫，確定針對各個主題的團(tuán)隊信息庫。

優(yōu)選地，基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個機(jī)構(gòu)名稱信息，來創(chuàng)建機(jī)構(gòu)信息庫，包括：

對文本數(shù)據(jù)對應(yīng)的至少一個原始機(jī)構(gòu)名稱信息進(jìn)行名稱抽取、合并及去重處理，以確定符合預(yù)置條件的機(jī)構(gòu)名稱信息；

基于預(yù)置的規(guī)范機(jī)構(gòu)名稱信息，對已確定的機(jī)構(gòu)名稱信息進(jìn)行規(guī)范化處理，并基于規(guī)范化處理后的機(jī)構(gòu)名稱信息來創(chuàng)建機(jī)構(gòu)信息庫。

優(yōu)選地，基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個著者姓名信息，并結(jié)合文本數(shù)據(jù)和機(jī)構(gòu)信息庫來創(chuàng)建人員信息庫，包括：

對文本數(shù)據(jù)對應(yīng)的至少一個原始著者姓名信息進(jìn)行姓名抽取、消歧及合并處理，以確定符合預(yù)置條件的著者姓名信息；

基于機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息和已確定的各個著者姓名信息，建立機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系；

基于文本數(shù)據(jù)和機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系，建立已確定的各個著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系，并基于關(guān)聯(lián)關(guān)系來創(chuàng)建人員信息庫。

優(yōu)選地，基于獲取到的任一文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息，針對任一著者選擇對應(yīng)于該任一著者的主題信息，來創(chuàng)建主題信息庫，包括：

對文本數(shù)據(jù)進(jìn)行分詞處理，并對分詞處理得到的分詞片段的出現(xiàn)頻率進(jìn)行統(tǒng)計處理；

將各個分詞片段、分詞片段的出現(xiàn)頻率和人員信息庫中的著者姓名信息輸入到預(yù)置主題模型中，以獲取到文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息；

基于已獲取的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息，通過預(yù)置選擇規(guī)則選擇出針對任一著者姓名信息的多個主題信息，以創(chuàng)建主題信息庫。

優(yōu)選地，基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫，確定針對各個主題的團(tuán)隊信息庫，包括：

基于主題信息庫中著者姓名信息與文本數(shù)據(jù)包含的主題信息之間的關(guān)聯(lián)關(guān)系，以及人員信息庫中著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)的關(guān)聯(lián)關(guān)系，建立機(jī)構(gòu)信息庫、人員信息庫和主題信息庫之間的關(guān)聯(lián)關(guān)系；

基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫之間的關(guān)聯(lián)關(guān)系，建立主題信息庫中針對各個主題信息對應(yīng)的機(jī)構(gòu)名稱信息的合作關(guān)系網(wǎng)絡(luò)，合作關(guān)系網(wǎng)絡(luò)包括一個主題信息對應(yīng)的一個機(jī)構(gòu)名稱下多個著者姓名信息之間的關(guān)系；

針對任一合作關(guān)系網(wǎng)絡(luò)中，判斷是否存在無關(guān)聯(lián)關(guān)系的著者姓名信息；

若存在，則將無關(guān)聯(lián)關(guān)系的著者姓名信息之間建立關(guān)聯(lián)關(guān)系；

基于預(yù)置分析方式，確定一個或多個合作關(guān)系網(wǎng)絡(luò)中具有關(guān)聯(lián)關(guān)系的多個著者姓名信息，并將具有關(guān)聯(lián)關(guān)系的多個著者姓名信息作為一個團(tuán)隊，以確定團(tuán)隊信息庫。

該方法還包括：

對比各個團(tuán)隊中的著者姓名信息；

基于對比結(jié)果，將包含完全相同的著者姓名信息的團(tuán)隊進(jìn)行合并。

其中，團(tuán)隊包括以下任一項：

同機(jī)構(gòu)團(tuán)隊和/或跨機(jī)構(gòu)團(tuán)隊：

同機(jī)構(gòu)團(tuán)隊為任一團(tuán)隊下所有的著者姓名信息對應(yīng)于同一個機(jī)構(gòu)名稱信息；

跨機(jī)構(gòu)團(tuán)隊為任一團(tuán)隊下的所有的著者姓名信息對應(yīng)于至少兩個科研機(jī)構(gòu)。

本發(fā)明的另一個實施例提出了一種團(tuán)隊信息的確定裝置，包括：

第一創(chuàng)建模塊，用于基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個機(jī)構(gòu)名稱信息，來創(chuàng)建機(jī)構(gòu)信息庫；

第二創(chuàng)建模塊，用于基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個著者姓名信息，并結(jié)合文本數(shù)據(jù)和機(jī)構(gòu)信息庫來創(chuàng)建人員信息庫；

第三創(chuàng)建模塊，用于基于獲取到的任一文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息，針對任一著者選擇對應(yīng)于該任一著者的主題信息，來創(chuàng)建主題信息庫；

確定模塊，用于基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫，確定針對各個主題的團(tuán)隊信息庫。

優(yōu)選地，第一創(chuàng)建模塊包括：

第一處理單元，用于對文本數(shù)據(jù)對應(yīng)的至少一個原始機(jī)構(gòu)名稱信息進(jìn)行名稱抽取、合并及去重處理，以確定符合預(yù)置條件的機(jī)構(gòu)名稱信息；

規(guī)范單元，用于基于預(yù)置的規(guī)范機(jī)構(gòu)名稱信息，對已確定的機(jī)構(gòu)名稱信息進(jìn)行規(guī)范化處理，并基于規(guī)范化處理后的機(jī)構(gòu)名稱信息來創(chuàng)建機(jī)構(gòu)信息庫。

優(yōu)選地，第二創(chuàng)建模塊包括：

第二處理單元，用于對文本數(shù)據(jù)對應(yīng)的至少一個原始著者姓名信息進(jìn)行姓名抽取、消歧及合并處理，以確定符合預(yù)置條件的著者姓名信息；

第一建立單元，用于基于機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息和已確定的各個著者姓名信息，建立機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系；

第二建立單元，用于基于文本數(shù)據(jù)和機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系，建立已確定的各個著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系，并基于關(guān)聯(lián)關(guān)系來創(chuàng)建人員信息庫。

優(yōu)選地，第三創(chuàng)建模塊包括：

第三處理單元，用于對文本數(shù)據(jù)進(jìn)行分詞處理，并對分詞處理得到的分詞片段的出現(xiàn)頻率進(jìn)行統(tǒng)計處理；

獲取單元，用于將各個分詞片段、分詞片段的出現(xiàn)頻率和人員信息庫中的著者姓名信息輸入到預(yù)置主題模型中，以獲取到文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息；

選擇單元，用于基于已獲取的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息，通過預(yù)置選擇規(guī)則選擇出針對任一著者姓名信息的多個主題信息，以創(chuàng)建主題信息庫。

優(yōu)選地，確定模塊包括：

第三建立單元，用于基于主題信息庫中著者姓名信息與文本數(shù)據(jù)包含的主題信息之間的關(guān)聯(lián)關(guān)系，以及人員信息庫中著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)的關(guān)聯(lián)關(guān)系，建立機(jī)構(gòu)信息庫、人員信息庫和主題信息庫之間的關(guān)聯(lián)關(guān)系；

第四建立單元，用于基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫之間的關(guān)聯(lián)關(guān)系，建立主題信息庫中針對各個主題信息對應(yīng)的機(jī)構(gòu)名稱信息的合作關(guān)系網(wǎng)絡(luò)，合作關(guān)系網(wǎng)絡(luò)包括一個主題信息對應(yīng)的一個機(jī)構(gòu)名稱下多個著者姓名信息之間的關(guān)系；

判斷單元，用于針對任一合作關(guān)系網(wǎng)絡(luò)中，判斷是否存在無關(guān)聯(lián)關(guān)系的著者姓名信息；

執(zhí)行單元，用于若存在，則將無關(guān)聯(lián)關(guān)系的著者姓名信息之間建立關(guān)聯(lián)關(guān)系；

確定單元，用于基于預(yù)置分析方式，確定一個或多個合作關(guān)系網(wǎng)絡(luò)中具有關(guān)聯(lián)關(guān)系的多個著者姓名信息，并將具有關(guān)聯(lián)關(guān)系的多個著者姓名信息作為一個團(tuán)隊，以確定團(tuán)隊信息庫。

優(yōu)選地，該裝置還包括：

對比模塊，用于對比各個團(tuán)隊中的著者姓名信息；

合并模塊，用于基于對比結(jié)果，將包含完全相同的著者姓名信息的團(tuán)隊進(jìn)行合并。

優(yōu)選地，團(tuán)隊包括以下任一項：

同機(jī)構(gòu)團(tuán)隊和/或跨機(jī)構(gòu)團(tuán)隊：

同機(jī)構(gòu)團(tuán)隊為任一團(tuán)隊下所有的著者姓名信息對應(yīng)于同一個機(jī)構(gòu)名稱信息；

跨機(jī)構(gòu)團(tuán)隊為任一團(tuán)隊下的所有的著者姓名信息對應(yīng)于至少兩個科研機(jī)構(gòu)。

本發(fā)明的技術(shù)方案中，基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個機(jī)構(gòu)名稱信息，來創(chuàng)建機(jī)構(gòu)信息庫；基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個著者姓名信息，并結(jié)合文本數(shù)據(jù)和機(jī)構(gòu)信息庫來創(chuàng)建人員信息庫；基于獲取到的任一文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息，針對任一著者選擇對應(yīng)于該任一著者的主題信息，來創(chuàng)建主題信息庫；基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫，確定針對各個主題的團(tuán)隊信息庫，能夠準(zhǔn)確地、全面地確定團(tuán)隊信息，且減少人工確定團(tuán)隊信息的較高成本，縮減人工確定團(tuán)隊信息的時間；同時當(dāng)文本數(shù)據(jù)被更新時，團(tuán)隊信息也可以及時被更新，避免造成已確定的團(tuán)隊信息不完整且團(tuán)隊中的著者姓名信息也不完整的情況發(fā)生。

本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出，這些將從下面的描述中變得明顯，或通過本發(fā)明的實踐了解到。

附圖說明

本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解，其中：

圖1為本發(fā)明一個實施例的團(tuán)隊信息的確定方法的流程示意圖；

圖2為本發(fā)明中的一個優(yōu)選實施例的創(chuàng)建機(jī)構(gòu)信息庫的流程示意圖；

圖3為本發(fā)明中的另一個優(yōu)選實施例的創(chuàng)建人員信息庫的流程示意圖；

圖4為本發(fā)明中的又一個優(yōu)選實施例的創(chuàng)建主題信息庫的流程示意圖；

圖5為本發(fā)明中的再一個優(yōu)選實施例的確定團(tuán)隊信息庫的流程示意圖；

圖6為本發(fā)明中的再一個優(yōu)選實施例的針對任一存在無關(guān)聯(lián)關(guān)系的著者姓名信息的合作關(guān)系網(wǎng)絡(luò)的示意圖；

圖7為本發(fā)明中的再一個優(yōu)選實施例的團(tuán)隊類型的示意圖；

圖8為本發(fā)明中的再一個優(yōu)選實施例的同機(jī)構(gòu)團(tuán)隊的示意圖；

圖9為本發(fā)明中的再一個優(yōu)選實施例的跨機(jī)構(gòu)團(tuán)隊的示意圖；

圖10為本發(fā)明中的另一個優(yōu)選實施例的團(tuán)隊信息的確定裝置的結(jié)構(gòu)框架示意圖。

具體實施方式

下面詳細(xì)描述本發(fā)明的實施例，所述實施例的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的，僅用于解釋本發(fā)明，而不能解釋為對本發(fā)明的限制。

本技術(shù)領(lǐng)域技術(shù)人員可以理解，除非特意聲明，這里使用的單數(shù)形式“一”、“一個”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是，本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件，但是并不排除存在或添加一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解，當(dāng)我們稱元件被“連接”或“耦接”到另一元件時，它可以直接連接或耦接到其他元件，或者也可以存在中間元件。此外，這里使用的“連接”或“耦接”可以包括無線連接或無線耦接。這里使用的措辭“和/或”包括一個或更多個相關(guān)聯(lián)的列出項的全部或任一單元和全部組合。

本技術(shù)領(lǐng)域技術(shù)人員可以理解，除非另外定義，這里使用的所有術(shù)語(包括技術(shù)術(shù)語和科學(xué)術(shù)語)，具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是，諸如通用字典中定義的那些術(shù)語，應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義，并且除非像這里一樣被特定定義，否則不會用理想化或過于正式的含義來解釋。

圖1為本發(fā)明一個實施例的團(tuán)隊信息的確定方法的流程示意圖。

需要說明的是，本實施例的執(zhí)行主體是應(yīng)用程序。

步驟s101：基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個機(jī)構(gòu)名稱信息，來創(chuàng)建機(jī)構(gòu)信息庫；步驟s102：基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個著者姓名信息，并結(jié)合文本數(shù)據(jù)和機(jī)構(gòu)信息庫來創(chuàng)建人員信息庫；步驟s103：基于獲取到的任一文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息，針對任一著者選擇對應(yīng)于該任一著者的主題信息，來創(chuàng)建主題信息庫；步驟s104：基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫，確定針對各個主題的團(tuán)隊信息庫。

以下針對各個步驟的具體實現(xiàn)做進(jìn)一步的說明：

步驟s101：基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個機(jī)構(gòu)名稱信息，來創(chuàng)建機(jī)構(gòu)信息庫。

其中，文本數(shù)據(jù)包括但不限于：論文數(shù)據(jù)、專利申請數(shù)據(jù)、專利數(shù)據(jù)。

具體地，基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個機(jī)構(gòu)名稱信息，來創(chuàng)建機(jī)構(gòu)信息庫的步驟，包括：對文本數(shù)據(jù)對應(yīng)的至少一個原始機(jī)構(gòu)名稱信息進(jìn)行名稱抽取、合并及去重處理，以確定符合預(yù)置條件的機(jī)構(gòu)名稱信息；基于預(yù)置的規(guī)范機(jī)構(gòu)名稱信息，對已確定的機(jī)構(gòu)名稱信息進(jìn)行規(guī)范化處理，并基于規(guī)范化處理后的機(jī)構(gòu)名稱信息來創(chuàng)建機(jī)構(gòu)信息庫。

例如，如圖2所示，獲取預(yù)置時間內(nèi)的全部文本數(shù)據(jù)，并去除重復(fù)的文本數(shù)據(jù)，對去重后的每個文本數(shù)據(jù)設(shè)置標(biāo)識符，如，設(shè)置論文數(shù)據(jù)“生物制藥的現(xiàn)狀和未來的應(yīng)用”的標(biāo)識符為“001”、設(shè)置專利申請數(shù)據(jù)“2012xxxxxxxx.6，一種制藥方法”的標(biāo)識符為“002”、設(shè)置專利數(shù)據(jù)“2013xxxxxxxx.0，生物制藥的廢渣處理方法”的標(biāo)識符為“003”；抽取上述文本數(shù)據(jù)對應(yīng)的原始機(jī)構(gòu)名稱信息，如，抽取論文數(shù)據(jù)“生物制藥的現(xiàn)狀和未來”對應(yīng)的原始機(jī)構(gòu)名稱信息“xx大學(xué)xx學(xué)院”，抽取專利申請數(shù)據(jù)“2012xxxxxxxx.6，一種制藥方法”對應(yīng)的原始機(jī)構(gòu)名稱信息“xx生物科技有限公司、張x”，抽取專利數(shù)據(jù)“2013xxxxxxxx.0，生物制藥的廢渣處理方法”對應(yīng)的原始機(jī)構(gòu)名稱信息“xxxxx股份公司”；對上述論文數(shù)據(jù)、專利申請數(shù)據(jù)和專利數(shù)據(jù)對應(yīng)的至少一個原始機(jī)構(gòu)名稱信息進(jìn)行一級機(jī)構(gòu)名稱抽取，并剔除專利申請數(shù)據(jù)和專利數(shù)據(jù)對應(yīng)的所有為自然人的申請人，如，剔除“張x”；將提取到的一級機(jī)構(gòu)名稱信息進(jìn)行合并及去除重復(fù)的一級機(jī)構(gòu)名稱信息；最終確定的一級機(jī)構(gòu)名稱信息即為符合預(yù)置條件的一級機(jī)構(gòu)名稱信息，如，xx大學(xué)xx學(xué)院、xx生物科技有限公司和xxxxx股份公司；對已確定的一級機(jī)構(gòu)名稱信息進(jìn)行規(guī)范化處理，若上述提取到的一級機(jī)構(gòu)名稱信息存在不規(guī)范的情況，則將該一級機(jī)構(gòu)名稱信息進(jìn)行規(guī)范化處理，并基于規(guī)范化處理后的機(jī)構(gòu)名稱信息來創(chuàng)建機(jī)構(gòu)信息庫。即該機(jī)構(gòu)信息庫記錄了規(guī)范化后的一級機(jī)構(gòu)名稱信息和原始一級機(jī)構(gòu)名稱信息與規(guī)范化后的一級機(jī)構(gòu)名稱信息的映射關(guān)系。

需要說明的是，一般論文數(shù)據(jù)中對應(yīng)的機(jī)構(gòu)名稱信息可能包含二級機(jī)構(gòu)信息和一級機(jī)構(gòu)名稱信息，所以需要將一級機(jī)構(gòu)名稱信息抽取出來，以剔除二級機(jī)構(gòu)名稱信息。而專利申請數(shù)據(jù)和專利數(shù)據(jù)中對應(yīng)的申請人名稱信息或?qū)＠麢?quán)人名稱信息，即對應(yīng)的機(jī)構(gòu)名稱信息，一般僅包含一級機(jī)構(gòu)名稱信息，若也包含二級機(jī)構(gòu)名稱信息則將一級機(jī)構(gòu)名稱信息抽取出來，但由于申請人名稱信息或?qū)＠麢?quán)人名稱信息還可能有包含是自然人的情況，故需要將這些自然人進(jìn)行剔除。其中，一級機(jī)構(gòu)為包括但不限于，大學(xué)，研究所，設(shè)計院，股份公司等；二級機(jī)構(gòu)包括但不限于，大學(xué)附屬學(xué)院，研究院附屬公司等。通過對論文數(shù)據(jù)、專利申請數(shù)據(jù)和專利數(shù)據(jù)的分析，保證了數(shù)據(jù)源的全面性和發(fā)現(xiàn)團(tuán)隊信息的全面性；且在對上述文本數(shù)據(jù)進(jìn)行預(yù)處理時不需要對單獨(dú)著者或單獨(dú)發(fā)明人的文本數(shù)據(jù)進(jìn)行剔除，從而提高了團(tuán)隊信息的完整性；同時避免了發(fā)現(xiàn)虛假的團(tuán)隊信息，確保了團(tuán)隊信息的準(zhǔn)確性。

步驟s102：基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個著者姓名信息，并結(jié)合文本數(shù)據(jù)和機(jī)構(gòu)信息庫來創(chuàng)建人員信息庫。

其中，著者包括：論文的作者、專利申請的發(fā)明人、專利的發(fā)明人。

具體地，基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個著者姓名信息，并結(jié)合文本數(shù)據(jù)和機(jī)構(gòu)信息庫來創(chuàng)建人員信息庫的步驟，包括：對文本數(shù)據(jù)對應(yīng)的至少一個原始著者姓名信息進(jìn)行姓名抽取、消歧及合并處理，以確定符合預(yù)置條件的著者姓名信息；基于機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息和已確定的各個著者姓名信息，建立機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系；基于文本數(shù)據(jù)和機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系，建立已確定的各個著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系，并基于關(guān)聯(lián)關(guān)系來創(chuàng)建人員信息庫。

例如，如圖3所示，抽取上述論文數(shù)據(jù)“生物制藥的現(xiàn)狀和未來”對應(yīng)的原始著者姓名信息“謝xx，饒xx”，抽取專利申請數(shù)據(jù)“2012xxxxxxxx.6，一種制藥方法”對應(yīng)的原始著者姓名信息“張x，吳x，趙xx，王xx”，抽取專利數(shù)據(jù)“2013xxxxxxxx.0，生物制藥的廢渣處理方法”對應(yīng)的原始著者姓名信息“axx，nxx，jxx”；基于姓名消歧算法對上述抽取到的原始著者姓名信息進(jìn)行消歧，并將消歧后的著者姓名信息進(jìn)行合并；也可以先分別對抽取到的論文數(shù)據(jù)對應(yīng)的原始著者姓名信息進(jìn)行消歧和抽取到的專利申請數(shù)據(jù)和專利數(shù)據(jù)對應(yīng)的原始著者姓名信息進(jìn)行消歧，再將各自消歧后著者姓名信息進(jìn)行合并，并基于創(chuàng)建的機(jī)構(gòu)信息庫，將合并后的著者姓名信息進(jìn)行去重。最終基于得到的處理后的著者姓名信息；基于機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息和已確定的各個著者姓名信息的隸屬關(guān)系，建立機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系，如，“xx大學(xué)xx學(xué)院”對應(yīng)“謝xx，饒xx”、“xx生物科技有限公司”對應(yīng)“張x，吳x，趙xx，王xx”和“xxxxx股份公司”對應(yīng)“axx，nxx，jxx”；基于文本數(shù)據(jù)和機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系，建立已確定的各個著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系，并基于關(guān)聯(lián)關(guān)系來創(chuàng)建人員信息庫，即該人員信息庫記錄了著者姓名信息、著者姓名信息對應(yīng)的發(fā)表的論文、專利申請和專利的情況，以及著者姓名信息與機(jī)構(gòu)名稱信息之間的對應(yīng)關(guān)系，如，下述表1所示：

表1

需要說明的是，著者姓名信息包括論文數(shù)據(jù)的作者姓名信息和專利申請數(shù)據(jù)和專利數(shù)據(jù)的發(fā)明人姓名信息。

步驟s103：基于獲取到的任一文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息，針對任一著者選擇對應(yīng)于該任一著者的主題信息，來創(chuàng)建主題信息庫。

具體地，基于獲取到的任一文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息，針對任一著者選擇對應(yīng)于該任一著者的主題信息，來創(chuàng)建主題信息庫的步驟，包括：對文本數(shù)據(jù)進(jìn)行分詞處理，并對分詞處理得到的分詞片段的出現(xiàn)頻率進(jìn)行統(tǒng)計處理；將各個分詞片段、分詞片段的出現(xiàn)頻率和人員信息庫中的著者姓名信息輸入到預(yù)置主題模型中，以獲取到文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息；基于已獲取的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息，通過預(yù)置選擇規(guī)則選擇出針對任一著者姓名信息的多個主題信息，以創(chuàng)建主題信息庫。

例如，如圖4所示，對上述論文數(shù)據(jù)中的題目、摘要和關(guān)鍵詞與專利申請數(shù)據(jù)和專利數(shù)據(jù)中的專利申請或?qū)＠拿Q、摘要和權(quán)利要求內(nèi)容進(jìn)行合并，并對合并后的文本數(shù)據(jù)進(jìn)行分詞、去除停用詞以及對得到的分詞片段的出現(xiàn)頻率進(jìn)行統(tǒng)計處理；將各個分詞片段、分詞片段的出現(xiàn)頻率和人員信息庫中的著者姓名信息輸入到at主題模型中，以獲取到at主題模型輸出的文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息；通過設(shè)定閾值條件選擇滿足閾值條件的主題信息，或選擇與著者相關(guān)聯(lián)度最高的5個主題作為一個著者的主題信息，從而創(chuàng)建主題信息庫，則該主題信息庫記錄了得到的主題信息和著者姓名信息的主題信息。

需要說明的是，本步驟能夠確定在任一主題信息下的團(tuán)隊信息，而不是只確定合作的團(tuán)隊信息，而不知道該合作的團(tuán)隊在什么方面進(jìn)行了合作，使得在任一主題信息下確定的團(tuán)隊信息相比于其它方法確定的團(tuán)隊信息更細(xì)致，對基于團(tuán)隊信息的科研管理決策更有效、更有價值。

步驟s104：基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫，確定針對各個主題的團(tuán)隊信息庫。

具體地，基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫，確定針對各個主題的團(tuán)隊信息庫的步驟，包括：基于主題信息庫中著者姓名信息與文本數(shù)據(jù)包含的主題信息之間的關(guān)聯(lián)關(guān)系，以及人員信息庫中著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)的關(guān)聯(lián)關(guān)系，建立機(jī)構(gòu)信息庫、人員信息庫和主題信息庫之間的關(guān)聯(lián)關(guān)系；基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫之間的關(guān)聯(lián)關(guān)系，建立主題信息庫中針對各個主題信息對應(yīng)的機(jī)構(gòu)名稱信息的合作關(guān)系網(wǎng)絡(luò)，合作關(guān)系網(wǎng)絡(luò)包括一個主題信息對應(yīng)的一個機(jī)構(gòu)名稱下多個著者姓名信息之間的關(guān)系；針對任一合作關(guān)系網(wǎng)絡(luò)中，判斷是否存在無關(guān)聯(lián)關(guān)系的著者姓名信息；若存在，則將無關(guān)聯(lián)關(guān)系的著者姓名信息之間建立關(guān)聯(lián)關(guān)系；基于預(yù)置分析方式，確定一個或多個合作關(guān)系網(wǎng)絡(luò)中具有關(guān)聯(lián)關(guān)系的多個著者姓名信息，并將具有關(guān)聯(lián)關(guān)系的多個著者姓名信息作為一個團(tuán)隊，以確定團(tuán)隊信息庫。

其中，團(tuán)隊包括以下任一項：同機(jī)構(gòu)團(tuán)隊和/或跨機(jī)構(gòu)團(tuán)隊：同機(jī)構(gòu)團(tuán)隊為任一團(tuán)隊下所有的著者姓名信息對應(yīng)于同一個機(jī)構(gòu)名稱信息；跨機(jī)構(gòu)團(tuán)隊為任一團(tuán)隊下的所有的著者姓名信息對應(yīng)于至少兩個科研機(jī)構(gòu)。圖7示出了為本發(fā)明中的再一個優(yōu)選實施例的團(tuán)隊類型的示意圖；圖8示出了為本發(fā)明中的再一個優(yōu)選實施例的同機(jī)構(gòu)團(tuán)隊的示意圖；圖9示出了為本發(fā)明中的再一個優(yōu)選實施例的跨機(jī)構(gòu)團(tuán)隊的示意圖。

例如，如圖5所示，基于主題信息庫中著者姓名信息與文本數(shù)據(jù)包含的主題信息之間的關(guān)聯(lián)關(guān)系，以及人員信息庫中著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)的關(guān)聯(lián)關(guān)系，建立機(jī)構(gòu)信息庫、人員信息庫和主題信息庫之間的關(guān)聯(lián)關(guān)系；即基于創(chuàng)建的機(jī)構(gòu)信息庫、人員信息庫和主題信息庫，確定人員信息庫與機(jī)構(gòu)信息庫的關(guān)聯(lián)關(guān)系和人員信息庫與主題信息庫的關(guān)聯(lián)關(guān)系；基于文本數(shù)據(jù)結(jié)合文本數(shù)據(jù)的標(biāo)識符或直接通過人員信息庫建立人員信息庫中著者之間的合作關(guān)系；從創(chuàng)建的主題信息庫中選擇一個主題信息，對該主題信息對應(yīng)的著者姓名信息創(chuàng)建合作關(guān)系網(wǎng)絡(luò)，針對該主題信息對應(yīng)的每一個機(jī)構(gòu)名稱信息，判斷該機(jī)構(gòu)名稱信息的著者姓名信息的合作關(guān)系網(wǎng)絡(luò)判斷是否存在無關(guān)聯(lián)關(guān)系的著者姓名信息，如果存在無關(guān)聯(lián)關(guān)系的著者姓名信息，則通過增加關(guān)聯(lián)線的方式使無關(guān)聯(lián)關(guān)系的子網(wǎng)絡(luò)連通，圖6示出了本發(fā)明中的再一個優(yōu)選實施例的針對任一存在無關(guān)聯(lián)關(guān)系的著者姓名信息的合作關(guān)系網(wǎng)絡(luò)的示意圖，在增加關(guān)聯(lián)線時可分別選擇兩個無關(guān)聯(lián)的子網(wǎng)絡(luò)的任一節(jié)點(diǎn)，如，圖6中的l1和l5，并將l1與l2相連，將l5與l4相連，使得該合作關(guān)系網(wǎng)絡(luò)中沒有無關(guān)系的著者姓名信息；然后利用社會網(wǎng)絡(luò)分析方法中的組元分析，獲取該下合作關(guān)系網(wǎng)絡(luò)的所有組元，每一個組元即為團(tuán)隊信息。圖8示出了為本發(fā)明中的再一個優(yōu)選實施例的同機(jī)構(gòu)團(tuán)隊的示意圖；圖9示出了為本發(fā)明中的再一個優(yōu)選實施例的跨機(jī)構(gòu)團(tuán)隊的示意圖。

需要說明的是，由于文本數(shù)據(jù)會被實時更新或者文本數(shù)據(jù)會被在預(yù)置周期內(nèi)進(jìn)行更新，則需要本方法在預(yù)置的時間內(nèi)，獲取更新的文本數(shù)據(jù)，即新增的文本數(shù)據(jù)，并基于上述步驟s101-步驟s104的具體實施方式對更新的文本數(shù)據(jù)進(jìn)行處理，以獲取到更新的團(tuán)隊信息，使得當(dāng)文本數(shù)據(jù)被更新時，團(tuán)隊信息也可以及時被更新，避免造成已確定的團(tuán)隊信息不完整且團(tuán)隊中的著者姓名信息也不完整的情況發(fā)生。

具體地，該方法還包括：對比各個團(tuán)隊中的著者姓名信息；基于對比結(jié)果，將包含完全相同的著者姓名信息的團(tuán)隊進(jìn)行合并。

圖10為本發(fā)明中的另一個優(yōu)選實施例的團(tuán)隊信息的確定裝置的結(jié)構(gòu)框架示意圖。

第一創(chuàng)建模塊，基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個機(jī)構(gòu)名稱信息，來創(chuàng)建機(jī)構(gòu)信息庫；第二創(chuàng)建模塊，基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個著者姓名信息，并結(jié)合文本數(shù)據(jù)和機(jī)構(gòu)信息庫來創(chuàng)建人員信息庫；第三創(chuàng)建模塊，基于獲取到的任一文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息，針對任一著者選擇對應(yīng)于該任一著者的主題信息，來創(chuàng)建主題信息庫；確定模塊，基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫，確定針對各個主題的團(tuán)隊信息庫。

以下針對各個模塊的具體實現(xiàn)做進(jìn)一步的說明：

第一創(chuàng)建模塊，基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個機(jī)構(gòu)名稱信息，來創(chuàng)建機(jī)構(gòu)信息庫。

其中，文本數(shù)據(jù)包括但不限于：論文數(shù)據(jù)、專利申請數(shù)據(jù)、專利數(shù)據(jù)。

具體地，第一創(chuàng)建模塊包括：第一處理單元，對文本數(shù)據(jù)對應(yīng)的至少一個原始機(jī)構(gòu)名稱信息進(jìn)行名稱抽取、合并及去重處理，以確定符合預(yù)置條件的機(jī)構(gòu)名稱信息；規(guī)范單元，基于預(yù)置的規(guī)范機(jī)構(gòu)名稱信息，對已確定的機(jī)構(gòu)名稱信息進(jìn)行規(guī)范化處理，并基于規(guī)范化處理后的機(jī)構(gòu)名稱信息來創(chuàng)建機(jī)構(gòu)信息庫。

例如，獲取預(yù)置時間內(nèi)的全部文本數(shù)據(jù)，并去除重復(fù)的文本數(shù)據(jù)，對去重后的每個文本數(shù)據(jù)設(shè)置標(biāo)識符，如，設(shè)置論文數(shù)據(jù)“生物制藥的現(xiàn)狀和未來”的標(biāo)識符為“001”、設(shè)置專利申請數(shù)據(jù)“2012xxxxxxxx.6，一種制藥方法”的標(biāo)識符為“002”、設(shè)置專利數(shù)據(jù)“2013xxxxxxxx.0，生物制藥的廢渣處理方法”的標(biāo)識符為“003”；第一處理單元抽取上述文本數(shù)據(jù)對應(yīng)的原始機(jī)構(gòu)名稱信息，如，抽取論文數(shù)據(jù)“生物制藥的現(xiàn)狀和未來”對應(yīng)的原始機(jī)構(gòu)名稱信息“xx大學(xué)xx學(xué)院”，抽取專利申請數(shù)據(jù)“2012xxxxxxxx.6，一種制藥方法”對應(yīng)的原始機(jī)構(gòu)名稱信息“xx生物科技有限公司、張x”，抽取專利數(shù)據(jù)“2013xxxxxxxx.0，生物制藥的廢渣處理方法”對應(yīng)的原始機(jī)構(gòu)名稱信息“xxxxx股份公司”；對上述論文數(shù)據(jù)、專利申請數(shù)據(jù)和專利數(shù)據(jù)對應(yīng)的至少一個原始機(jī)構(gòu)名稱信息進(jìn)行一級機(jī)構(gòu)名稱抽取，并剔除專利申請數(shù)據(jù)和專利數(shù)據(jù)對應(yīng)的所有為自然人的申請人，如，剔除“張x”；將抽取到的一級機(jī)構(gòu)名稱信息進(jìn)行合并及去除重復(fù)的一級機(jī)構(gòu)名稱信息；最終確定的一級機(jī)構(gòu)名稱信息即為符合預(yù)置條件的一級機(jī)構(gòu)名稱信息，如，xx大學(xué)xx學(xué)院、xx生物科技有限公司和xxxxx股份公司；規(guī)范單元對已確定的一級機(jī)構(gòu)名稱信息進(jìn)行規(guī)范化處理，若上述提取到的一級機(jī)構(gòu)名稱信息存在不規(guī)范的情況，則將該一級機(jī)構(gòu)名稱信息進(jìn)行規(guī)范化處理，并基于規(guī)范化處理后的機(jī)構(gòu)名稱信息來創(chuàng)建機(jī)構(gòu)信息庫。即該機(jī)構(gòu)信息庫記錄了規(guī)范化后的一級機(jī)構(gòu)名稱信息和原始一級機(jī)構(gòu)名稱信息與規(guī)范化后的一級機(jī)構(gòu)名稱信息的映射關(guān)系。

需要說明的是，一般論文數(shù)據(jù)中對應(yīng)的機(jī)構(gòu)名稱信息可能包含二級機(jī)構(gòu)信息和一級機(jī)構(gòu)名稱信息，所以需要將一級機(jī)構(gòu)名稱信息提取出來，以剔除二級機(jī)構(gòu)名稱信息。而專利申請數(shù)據(jù)和專利數(shù)據(jù)中對應(yīng)的申請人名稱信息或?qū)＠麢?quán)人名稱信息，即對應(yīng)的機(jī)構(gòu)名稱信息，一般僅包含一級機(jī)構(gòu)名稱信息，若也包含二級機(jī)構(gòu)名稱信息則將一級機(jī)構(gòu)名稱信息提取出來，但由于申請人名稱信息或?qū)＠麢?quán)人名稱信息還可能有包含是自然人的情況，故需要將這些自然人進(jìn)行剔除。其中，一級機(jī)構(gòu)為包括但不限于，大學(xué)，研究所，設(shè)計院，股份公司等；二級機(jī)構(gòu)包括但不限于，大學(xué)附屬學(xué)院，研究院附屬公司等。通過對論文數(shù)據(jù)、專利申請數(shù)據(jù)和專利數(shù)據(jù)的分析，保證了數(shù)據(jù)源的全面性和發(fā)現(xiàn)團(tuán)隊信息的全面性；且在對上述文本數(shù)據(jù)進(jìn)行預(yù)處理時不需要對單獨(dú)著者或單獨(dú)發(fā)明人的文本數(shù)據(jù)進(jìn)行剔除，從而提高了團(tuán)隊信息的完整性；同時避免了發(fā)現(xiàn)虛假的團(tuán)隊信息，確保了團(tuán)隊信息的準(zhǔn)確性。

第二創(chuàng)建模塊，基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個著者姓名信息，并結(jié)合文本數(shù)據(jù)和機(jī)構(gòu)信息庫來創(chuàng)建人員信息庫。

其中，著者包括：論文的作者、專利申請的發(fā)明人、專利的發(fā)明人。

具體地，第二創(chuàng)建模塊包括：第二處理單元，對文本數(shù)據(jù)對應(yīng)的至少一個原始著者姓名信息進(jìn)行姓名抽取、消歧及合并處理，以確定符合預(yù)置條件的著者姓名信息；第一建立單元，基于機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息和已確定的各個著者姓名信息，建立機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系；第二建立單元，基于文本數(shù)據(jù)和機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系，建立已確定的各個著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系，并基于關(guān)聯(lián)關(guān)系來創(chuàng)建人員信息庫。

例如，第二處理單元抽取上述論文數(shù)據(jù)“生物制藥的現(xiàn)狀和未來”對應(yīng)的原始著者姓名信息“謝xx，饒xx”，抽取專利申請數(shù)據(jù)“2012xxxxxxxx.6，一種制藥方法”對應(yīng)的原始著者姓名信息“張x，吳x，趙xx，王xx”，抽取專利數(shù)據(jù)“2013xxxxxxxx.0，生物制藥的廢渣處理方法”對應(yīng)的原始著者姓名信息“axx，nxx，jxx”；基于姓名消歧算法對上述抽取到的原始著者姓名信息進(jìn)行消歧，并將消歧后的著者姓名信息進(jìn)行合并；也可以先分別對抽取到的論文數(shù)據(jù)對應(yīng)的原始著者姓名信息進(jìn)行消歧和抽取到的專利申請數(shù)據(jù)和專利數(shù)據(jù)對應(yīng)的原始著者姓名信息進(jìn)行消歧，再將各自消歧后著者姓名信息進(jìn)行合并，并基于創(chuàng)建的機(jī)構(gòu)信息庫，將合并后的著者姓名信息進(jìn)行去重。最終基于得到的處理后的著者姓名信息；第一建立單元基于機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息和已確定的各個著者姓名信息的隸屬關(guān)系，建立機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系，如，“xx大學(xué)xx學(xué)院”對應(yīng)“謝xx，饒xx”、“xx生物科技有限公司”對應(yīng)“張x，吳x，趙xx，王xx”和“xxxxx股份公司”對應(yīng)“axx，nxx，jxx”；第二建立單元基于文本數(shù)據(jù)和機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系，建立已確定的各個著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系，并基于關(guān)聯(lián)關(guān)系來創(chuàng)建人員信息庫，即該人員信息庫記錄了著者姓名信息、著者姓名信息對應(yīng)的發(fā)表的論文、專利申請和專利的情況，以及著者姓名信息與機(jī)構(gòu)名稱信息之間的對應(yīng)關(guān)系，如，下述表1所示：

表1

需要說明的是，著者姓名信息包括論文數(shù)據(jù)的作者姓名信息和專利申請數(shù)據(jù)和專利數(shù)據(jù)的發(fā)明人姓名信息。

第三創(chuàng)建模塊，基于獲取到的任一文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息，針對任一著者選擇對應(yīng)于該任一著者的主題信息，來創(chuàng)建主題信息庫。

具體地，第三創(chuàng)建模塊包括：第三處理單元，對文本數(shù)據(jù)進(jìn)行分詞處理，并對分詞處理得到的分詞片段的出現(xiàn)頻率進(jìn)行統(tǒng)計處理；獲取單元，將各個分詞片段、分詞片段的出現(xiàn)頻率和人員信息庫中的著者姓名信息輸入到預(yù)置主題模型中，以獲取到文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息；選擇單元，基于已獲取的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息，通過預(yù)置選擇規(guī)則選擇出針對任一著者姓名信息的多個主題信息，以創(chuàng)建主題信息庫。

例如，對上述論文數(shù)據(jù)中的題目、摘要和關(guān)鍵詞與專利申請數(shù)據(jù)和專利數(shù)據(jù)中的專利申請或?qū)＠拿Q、摘要和權(quán)利要求內(nèi)容進(jìn)行合并，并第三處理單元對合并后的文本數(shù)據(jù)進(jìn)行分詞、去除停用詞以及對得到的分詞片段的出現(xiàn)頻率進(jìn)行統(tǒng)計處理；獲取單元將各個分詞片段、分詞片段的出現(xiàn)頻率和人員信息庫中的著者姓名信息輸入到at主題模型中，以獲取到at主題模型輸出的文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息；選擇單元通過設(shè)定閾值條件選擇滿足閾值條件的主題信息，或選擇與著者相關(guān)聯(lián)度最高的5個主題作為一個著者的主題信息，從而創(chuàng)建主題信息庫，則該主題信息庫記錄了得到的主題信息和著者姓名信息的主題信息。

需要說明的是，第三創(chuàng)建模塊能夠確定在任一主題信息下的團(tuán)隊信息，而不是只確定合作的團(tuán)隊信息，而不知道該合作的團(tuán)隊信息在什么方面進(jìn)行了合作，使得在任一主題信息下確定的團(tuán)隊信息提供的信息相比于其它方法確定的團(tuán)隊信息更細(xì)致，對基于團(tuán)隊信息的科研管理決策更有效、更有價值。

確定模塊，基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫，確定針對各個主題的團(tuán)隊信息庫。

具體地，確定模塊包括：第三建立單元，基于主題信息庫中著者姓名信息與文本數(shù)據(jù)包含的主題信息之間的關(guān)聯(lián)關(guān)系，以及人員信息庫中著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)的關(guān)聯(lián)關(guān)系，建立機(jī)構(gòu)信息庫、人員信息庫和主題信息庫之間的關(guān)聯(lián)關(guān)系；第四建立單元，基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫之間的關(guān)聯(lián)關(guān)系，建立主題信息庫中針對各個主題信息對應(yīng)的機(jī)構(gòu)名稱信息的合作關(guān)系網(wǎng)絡(luò)，合作關(guān)系網(wǎng)絡(luò)包括一個主題信息對應(yīng)的一個機(jī)構(gòu)名稱下多個著者姓名信息之間的關(guān)系；判斷單元，針對任一合作關(guān)系網(wǎng)絡(luò)中，判斷是否存在無關(guān)聯(lián)關(guān)系的著者姓名信息；執(zhí)行單元，若存在，則將無關(guān)聯(lián)關(guān)系的著者姓名信息之間建立關(guān)聯(lián)關(guān)系；確定單元，基于預(yù)置分析方式，確定一個或多個合作關(guān)系網(wǎng)絡(luò)中具有關(guān)聯(lián)關(guān)系的多個著者姓名信息，并將具有關(guān)聯(lián)關(guān)系的多個著者姓名信息作為一個團(tuán)隊，以確定團(tuán)隊信息庫。

例如，第三建立單元基于主題信息庫中著者姓名信息與文本數(shù)據(jù)包含的主題信息之間的關(guān)聯(lián)關(guān)系，以及人員信息庫中著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)的關(guān)聯(lián)關(guān)系，建立機(jī)構(gòu)信息庫、人員信息庫和主題信息庫之間的關(guān)聯(lián)關(guān)系；即基于創(chuàng)建的機(jī)構(gòu)信息庫、人員信息庫和主題信息庫，確定人員信息庫與機(jī)構(gòu)信息庫的關(guān)聯(lián)關(guān)系和人員信息庫與主題信息庫的關(guān)聯(lián)關(guān)系；第四建立單元基于文本數(shù)據(jù)結(jié)合文本數(shù)據(jù)的標(biāo)識符或直接通過人員信息庫建立人員信息庫中著者之間的合作關(guān)系；從創(chuàng)建的主題信息庫中選擇一個主題信息，對該主題信息對應(yīng)的著者姓名信息創(chuàng)建合作關(guān)系網(wǎng)絡(luò)，判斷單元針對該主題信息對應(yīng)的每一個機(jī)構(gòu)名稱信息，判斷該機(jī)構(gòu)名稱信息的著者姓名信息的合作關(guān)系網(wǎng)絡(luò)判斷是否存在無關(guān)聯(lián)關(guān)系的著者姓名信息，如果存在無關(guān)聯(lián)關(guān)系的著者姓名信息，則執(zhí)行單元通過增加關(guān)聯(lián)線的方式使無關(guān)聯(lián)關(guān)系的子網(wǎng)絡(luò)連通，圖6示出了本發(fā)明中的再一個優(yōu)選實施例的針對任一存在無關(guān)聯(lián)關(guān)系的著者姓名信息的合作關(guān)系網(wǎng)絡(luò)的示意圖，在增加關(guān)聯(lián)線時可分別選擇兩個無關(guān)聯(lián)的子網(wǎng)絡(luò)的任一節(jié)點(diǎn)，如，圖6中的l1和l5，并將l1與l2相連，將l5與l4相連，使得該合作關(guān)系網(wǎng)絡(luò)中沒有無關(guān)系的著者姓名信息；然后確定單元利用社會網(wǎng)絡(luò)分析方法中的組元分析，獲取該下合作關(guān)系網(wǎng)絡(luò)的所有組元，每一個組元即為團(tuán)隊信息。圖8示出了為本發(fā)明中的再一個優(yōu)選實施例的同機(jī)構(gòu)團(tuán)隊的示意圖；圖9示出了為本發(fā)明中的再一個優(yōu)選實施例的跨機(jī)構(gòu)團(tuán)隊的示意圖。

需要說明的是，由于文本數(shù)據(jù)會被實時更新或者文本數(shù)據(jù)會被在預(yù)置周期內(nèi)進(jìn)行更新，則需要本裝置在預(yù)置的時間內(nèi)，獲取更新的文本數(shù)據(jù)，即新增的文本數(shù)據(jù)，并基于上述第一創(chuàng)建模塊、第二創(chuàng)建模塊、第三創(chuàng)建模塊和確定模塊的具體實施方式對更新的文本數(shù)據(jù)進(jìn)行處理，以獲取到更新的團(tuán)隊信息，使得當(dāng)文本數(shù)據(jù)被更新時，團(tuán)隊信息也可以及時被更新，避免造成已確定的團(tuán)隊信息不完整且團(tuán)隊中的著者姓名信息也不完整的情況發(fā)生。

具體地，該裝置還包括：對比模塊，對比各個團(tuán)隊中的著者姓名信息；合并模塊，基于對比結(jié)果，將包含完全相同的著者姓名信息的團(tuán)隊進(jìn)行合并。

本技術(shù)領(lǐng)域技術(shù)人員可以理解，本發(fā)明包括涉及用于執(zhí)行本申請中所述操作中的一項或多項的設(shè)備。這些設(shè)備可以為所需的目的而專門設(shè)計和制造，或者也可以包括通用計算機(jī)中的已知設(shè)備。這些設(shè)備具有存儲在其內(nèi)的計算機(jī)程序，這些計算機(jī)程序選擇性地激活或重構(gòu)。這樣的計算機(jī)程序可以被存儲在設(shè)備(例如，計算機(jī))可讀介質(zhì)中或者存儲在適于存儲電子指令并分別耦聯(lián)到總線的任何類型的介質(zhì)中，所述計算機(jī)可讀介質(zhì)包括但不限于任何類型的盤(包括軟盤、硬盤、光盤、cd-rom、和磁光盤)、rom(read-onlymemory，只讀存儲器)、ram(randomaccessmemory，隨即存儲器)、eprom(erasableprogrammableread-onlymemory，可擦寫可編程只讀存儲器)、eeprom(electricallyerasableprogrammableread-onlymemory，電可擦可編程只讀存儲器)、閃存、磁性卡片或光線卡片。也就是，可讀介質(zhì)包括由設(shè)備(例如，計算機(jī))以能夠讀的形式存儲或傳輸信息的任何介質(zhì)。

本技術(shù)領(lǐng)域技術(shù)人員可以理解，可以用計算機(jī)程序指令來實現(xiàn)這些結(jié)構(gòu)圖和/或框圖和/或流圖中的每個框以及這些結(jié)構(gòu)圖和/或框圖和/或流圖中的框的組合。本技術(shù)領(lǐng)域技術(shù)人員可以理解，可以將這些計算機(jī)程序指令提供給通用計算機(jī)、專業(yè)計算機(jī)或其他可編程數(shù)據(jù)處理方法的處理器來實現(xiàn)，從而通過計算機(jī)或其他可編程數(shù)據(jù)處理方法的處理器來執(zhí)行本發(fā)明公開的結(jié)構(gòu)圖和/或框圖和/或流圖的框或多個框中指定的方案。

本技術(shù)領(lǐng)域技術(shù)人員可以理解，本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的步驟、措施、方案可以被交替、更改、組合或刪除。進(jìn)一步地，具有本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的其他步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。進(jìn)一步地，現(xiàn)有技術(shù)中的具有與本發(fā)明中公開的各種操作、方法、流程中的步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。

以上所述僅是本發(fā)明的部分實施方式，應(yīng)當(dāng)指出，對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明原理的前提下，還可以做出若干改進(jìn)和潤飾，這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：韓紅旗;李仲;劉洢穎;姚長青;李琳娜;侯慧敏
技術(shù)所有人：中國科學(xué)技術(shù)信息研究所
我是此專利的發(fā)明人

上一篇：影像文件管理方法及裝置與流程
上一篇：一種利用鍋爐煙氣余熱處理工業(yè)污水的設(shè)備的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

裝置不確定度相關(guān)技術(shù)

裝置不確定度k相關(guān)技術(shù)

化工裝置平穩(wěn)率確定相關(guān)技術(shù)

確定信息獲取方法相關(guān)技術(shù)

用戶信息傳輸裝置相關(guān)技術(shù)

消防用戶信息傳輸裝置相關(guān)技術(shù)

常見的信息處理裝置相關(guān)技術(shù)

緯德信息科技加密裝置相關(guān)技術(shù)

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

團(tuán)隊信息的確定方法和確定裝置與流程