本發(fā)明屬于基于機器學習的文本分類技術領域,主要涉及一種基于多特征融合的學術報告預告分類方法。
背景技術:
學術報告有助于開拓視野和知識面并獲得前沿研究信息,學術報告的內容通常是報告者的最新研究成果,有助于科技工作者了解學科的最新研究進展情況,還可以藉此途徑獲得跨學科的知識,通過當面聆聽這一形式,還可能獲取到專家的知識思維,有助于科技工作者開啟自己固有的直覺能力,也可以借助環(huán)境氣氛來開啟自己這種天賦固有的直覺能力。
另外,隨著科技工作者的不斷增多,他們對最新科技的渴望也是逐漸增加的,但是又沒有太多的時間去挑選需要關注的學術報告,這就需要我們事先進行學術報告的分類,然后對這些科技工作者進行推薦和推送,能極大的減少占用做科研的時間。然而網上學術報告信息量巨大,如果通過人工分類的方法,費時費力,無法進行及時的推薦和推送。進行簡單的機器學習的方法進行推薦和推送又浪費了學術報告能提供的眾多信息,分類準確度也得不到很好的保障。
目前,進行短文本分類的方法主要分為三大類:
1.人工分類
2.利用機器學習的方法進行分類
3.融合機器學習的方法以及數據包含的其他信息進行融合分類。
利用人工進行分類的方法很簡單,但是只適合在數據量極其小的情況下,人工分類需要投入大量的人力和精力,而且需要專業(yè)的人士參與,否則準確率不會很高,該方法實用性差。利用機器學習的方法進行分類適合那些文本中不包含對分類有幫助的信息的情況下,目前使用機器學習進行文本分類的方法很多,但是始終達不到較高的準確率。融合機器學習的各種方法并且在其基礎上加入文本中包含的其他有用特征進行融合分類,但是仍然無法滿足實際分類精度要求。
技術實現(xiàn)要素:
本發(fā)明是為了避免現(xiàn)有技術存在的不足之處,提出一種基于多特征融合的網絡學術報告分類方法,以期充分利用學術報告中包含的各種特征,并且結合多種機器學習的算法,以實現(xiàn)學術報告分類的最大準確率,從而保證實際應用的分類準確率。
本發(fā)明為解決技術問題采用如下技術方案:
本發(fā)明一種基于多特征融合的網絡學術報告分類方法的特點是按如下步驟進行:
步驟1、收集并建立學術報告數據庫;
步驟1.1、利用爬蟲工具收集網絡學術報告的信息并作為相應條目,所述網絡學術報告的信息包括:報告標題、報告時間、報告地點、報告人、報告人簡介、報告簡介和報告舉辦單位;
步驟1.2、添加學術報告所屬的學科分類信息的條目,從而建立學術報告數據庫;
步驟2、獲得第一匹配結果集合;
步驟2.1、收集并建立學院名稱集合及其包含的各個學科名稱集合;
步驟2.2、將所述報告舉辦單位與所述學院名稱集合中的各個學院進行匹配,從而獲得第一匹配結果集合;所述第一匹配結果集合為所述報告舉辦單位所對應的學院所包含的所有學科;
步驟3、獲得第二匹配結果集合;
步驟3.1、收集并建立研究人員集合及其對應的研究領域集合;
步驟3.2、將所述報告人與所述研究人員集合中的各個研究人員姓名進行匹配,從而獲得第二匹配結果集合;所述第二匹配結果集合為所述報告人所屬的研究領域;
步驟4、利用中文關鍵詞提取算法對所述報告標題進行提取,獲得所述報告標題的關鍵詞;
步驟5、使用同義詞擴展算法對所提取的關鍵詞進行同義詞擴展,得到所述關鍵詞的近義詞特征集合;
步驟6、使用SVM分類器對所述關鍵詞及其近義詞特征集合進行文本分類,得到第一分類結果;所述第一分類結果為所述關鍵詞及其近義詞所對應的第一學科集合;所述第一學科集合中包含各個學科名稱及其相應的概率;
步驟7、使用樸素貝葉斯分類器NB對所述關鍵詞及其近義詞特征集合進行文本分類,得到第二分類結果;所述第二分類結果為所述關鍵詞及其近義詞所對應的第二學科集合;所述第二學科集合中包含各個學科名稱及其相應的概率;
步驟8、得到初步分類結果集合;
步驟8.1、從所述第一分類結果和第二分類結果分別選出概率最高的前2個學科所對應的概率,分別記為第一SVM概率和第二SVM概率、第一NB概率和第二NB概率;
步驟8.2、設置一個置信度值C;
步驟8.3、判斷第一SVM概率和第二SVM概率之差≥置信度值C是否成立,若成立,則表將所述第一SVM概率所對應的學科作為第一初步分類結果;否則,則將所述第一SVM概率和第二SVM概率所對應的學科作為第一初步分類結果;
步驟8.4、判斷第一NB概率和第二NB概率之差≥置信度值C是否成立,若成立,則表將所述第一NB概率所對應的學科作為第二初步分類結果;否則,則將所述第一NB概率和第二NB概率所對應的學科作為第二初步分類結果;
步驟8.5、將所述第一初步分類結果和第二初步分類結果取并集,得到初步分類結果集合;
步驟9、得到最終分類結果
步驟9.1、為所述第一匹配結果集合、第二匹配結果集合和初步分類結果集合設定相應的權重,記為A、B、C;
步驟9.2、將所述第一匹配結果集合、第二匹配結果集合和初步分類結果集合取并集,得到綜合分類結果集合;
步驟9.3、統(tǒng)計所述綜合分類結果集合中的每個學科分別在所述第一匹配結果集合、第二匹配結果集合和初步分類結果集合中相應權重的總和;
步驟9.4、以權重的總和最高的學科作為所述網絡學術報告的最終分類結果并用于預告和推薦。
與現(xiàn)有技術相比,本發(fā)明的有益效果在于:
1.本發(fā)明充分使用了數據自身包含的信息,將學術報告中報告人和報告單位的匹配結果于用機器學習方法得到的結果進行融合,提高了分類的準確率,保證了實際應用的需求。
2.本發(fā)明首先建立研究單位數據庫和研究人員數據庫,將學術報告中的舉辦單位以及報告人信息與數據庫中的信息進行匹配,得到一系列學術報告人對應的學科以及一系列報告單位對應的學科,解決了數據利用不充分的問題,提高了學術報告數據利用效率。
3.本發(fā)明結合了多種傳統(tǒng)的機器學習方法,并加入置信度策略,使用支持向量機的分類方法得到分類結果,判斷第一概率與第二概率的差值大于置信度是否成立,成立則取第一概率對應的學科,否則取第一概率和第二概率對應的學科,得到支持向量機分類結果;再同樣的使用使用樸素貝葉斯的方法進行分類,得到樸素貝葉斯分類結果,將兩種分類方法的結果取并集,得到機器學習方法的分類結果,本方法結合了多種機器學習方法的優(yōu)點,提高了融合分類結果的準確率。
附圖說明
圖1為本發(fā)明的整體流程圖;
圖2為本發(fā)明多特征融合分類流程圖。
具體實施方式
在本實施例中,一種基于多特征融合的網絡學術報告分類方法,是通過多因素的方法對學術報告進行分類,其整體流程圖如圖1所示,并按如下過程進行:
步驟1、收集并建立學術報告數據庫;
步驟1.1、利用爬蟲工具收集網絡學術報告的信息并作為相應條目,網絡學術報告的信息包括:報告標題、報告時間、報告地點、報告人、報告人簡介、報告簡介和報告舉辦單位;
步驟1.2、添加學術報告所屬的學科分類信息的條目,從而建立學術報告數據庫;
步驟2、獲得第一匹配結果集合;
步驟2.1、收集并建立學院名稱集合及其包含的各個學科名稱集合;
步驟2.2、將報告舉辦單位與學院名稱集合中的各個學院進行匹配,從而獲得第一匹配結果集合;第一匹配結果集合為報告舉辦單位所對應的學院所包含的所有學科;
步驟3、獲得第二匹配結果集合;
步驟3.1、收集并建立研究人員集合及其對應的研究領域集合;
步驟3.2、將報告人與研究人員集合中的各個研究人員姓名進行匹配,從而獲得第二匹配結果集合;第二匹配結果集合為報告人所屬的研究領域;
步驟4、利用中文關鍵詞提取算法對報告標題進行提取,獲得報告標題的關鍵詞;
步驟4.1、收集關鍵詞提取的訓練集,訓練集保存在同一個文件夾中,其中每個文件都是以文本文件的形式存儲,總的文件數為D。
步驟4.2、對訓練集中所有的文本文件進行分詞處理,并且使用一個字典記錄每個詞出現(xiàn)的次數。
步驟4.3、遍歷字典中的每個詞,計算每個詞在所有文本文件中出現(xiàn)的詞頻的總和,這樣得到每個詞的詞頻TF;同時也計算每個詞在文本文件中出現(xiàn)的次數,在每個文本文件中不管是只出現(xiàn)一次或出現(xiàn)多次,都只是把出現(xiàn)的次數加1,這樣得到某個詞在文件中出現(xiàn)的次數i,這樣可以得到每個詞的逆向文件頻率IDF的值;
步驟4.4、計算的每個詞的TFIDF值即為的TF*IDF,根據得到的TFIDF值的大小進行排序,取出前N1個詞作為這一文檔的關鍵詞;
步驟4.5、對取出的學術報告的報告標題進行分詞處理;
步驟4.6、依次匹配每個詞在訓練集中的所對應的TFIDF值,取出前N2個詞作為當前學術報告標題的關鍵詞。
步驟5、使用同義詞擴展算法對所提取的關鍵詞進行同義詞擴展,得到所述關鍵詞的近義詞特征集合;
步驟6、使用SVM分類器對關鍵詞及其近義詞特征集合進行文本分類,得到第一分類結果;第一分類結果為關鍵詞及其近義詞所對應的第一學科集合;第一學科集合中包含各個學科名稱及其相應的概率;
步驟6.1、首先使用網上提供的論文的數據模型進行訓練,首先要進行的是分詞,需要對分詞的詞庫進行擴充,添加專業(yè)詞,分詞的結果保存到文件model.seg中。
步驟6.2、加載model.seg文件,進行特征選擇,選出比較能代表當前學科的n個詞語,存入文件model.temp中,這些詞語作為代表當前學科的特征詞。
步驟6.3、根據model.temp文件中的內容,計算其中每個詞語的權重值,存入model.model文件中。
步驟6.4、從數據庫中取出所有未被分類的學術報告的標題,將其存入文件中,存入的名稱為每個學術報告存儲在數據庫中的id,將這些文件統(tǒng)一放在默認的分類名稱的文件夾中。
步驟6.5、使用步驟6.1中添加了專業(yè)詞匯的分詞工具對這些學術報告的標題進行分詞,存入test.seg文件夾中。
步驟6.6、使用步驟4中的方法進行同義詞擴展,得到當前詞匯的一系列描述,將這些描述加入到特征中作為當前特征的擴展。
步驟6.7、計算得到的這些詞語的權重值,存入文件test.model文件中。
步驟6.8、加載model.model文件,使用SVM工具對當前的test.model文件進行測試,得到的測試結果即為當前test文件的分類結果,將結果存入test.result文件中,存入文件每行為一個記錄,每個記錄的格式為當前文件的路徑+制表符+所屬分類id。
步驟6.9、按行讀取test.result文件,分割出文件路徑和所屬分類id,從文件路徑中得到當前的學術報告在數據庫中的id。
步驟7、使用樸素貝葉斯分類器NB對關鍵詞及其近義詞特征集合進行文本分類,得到第二分類結果;第二分類結果為關鍵詞及其近義詞所對應的第二學科集合;第二學科集合中包含各個學科名稱及其相應的概率;
步驟8、得到初步分類結果集合;
步驟8.1、從第一分類結果和第二分類結果分別選出概率最高的前2個學科所對應的概率,分別記為第一SVM概率和第二SVM概率、第一NB概率和第二NB概率;
步驟8.2、設置一個置信度值C;
步驟8.3、判斷第一SVM概率和第二SVM概率之差≥置信度值C是否成立,若成立,則表將第一SVM概率所對應的學科作為第一初步分類結果;否則,則將所述第一SVM概率和第二SVM概率所對應的學科作為第一初步分類結果;
步驟8.4、判斷第一NB概率和第二NB概率之差≥置信度值C是否成立,若成立,則表將第一NB概率所對應的學科作為第二初步分類結果;否則,則將第一NB概率和第二NB概率所對應的學科作為第二初步分類結果;
步驟8.5、將第一初步分類結果和第二初步分類結果取并集,得到初步分類結果集合;
步驟9、得到最終分類結果,如圖2所示;
步驟9.1、為第一匹配結果集合、第二匹配結果集合和初步分類結果集合設定相應的權重,記為A、B、C;
步驟9.2、將第一匹配結果集合、第二匹配結果集合和初步分類結果集合取并集,得到綜合分類結果集合;
步驟9.3、統(tǒng)計綜合分類結果集合中的每個學科分別在第一匹配結果集合、第二匹配結果集合和初步分類結果集合中相應權重的總和;
步驟9.4、以權重的總和最高的學科作為網絡學術報告的最終分類結果并用于預告和推薦。