【技術(shù)領(lǐng)域】
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),特別涉及基于人工智能的網(wǎng)頁(yè)原創(chuàng)評(píng)估方法、裝置及存儲(chǔ)介質(zhì)。
背景技術(shù):
人工智能(artificialintelligence),英文縮寫為ai。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語(yǔ)言識(shí)別、圖像識(shí)別、自然語(yǔ)言處理和專家系統(tǒng)等。
隨著近年來(lái)互聯(lián)網(wǎng)數(shù)據(jù)的爆炸性增長(zhǎng),搜索引擎公司開始檢索千億級(jí)別的網(wǎng)頁(yè)資源。在海量網(wǎng)頁(yè)資源的背后,存在相當(dāng)一部分?jǐn)?shù)量的站長(zhǎng)或資源產(chǎn)生方,為了減少網(wǎng)頁(yè)制作的成本,或是利用其它的優(yōu)質(zhì)網(wǎng)頁(yè)為自己的網(wǎng)站吸取點(diǎn)擊增加流量等,轉(zhuǎn)載甚至抄襲其它的優(yōu)質(zhì)原創(chuàng)網(wǎng)頁(yè)。
這種現(xiàn)象雖然在一定程度上有利于網(wǎng)絡(luò)資源的快速傳播,但由于原創(chuàng)內(nèi)容的作者花費(fèi)了一定的時(shí)間和精力創(chuàng)作內(nèi)容,上述的轉(zhuǎn)載或抄襲行為會(huì)削減甚至消除原創(chuàng)作者的創(chuàng)作價(jià)值;另外,對(duì)于搜索引擎等而言,如果搜錄了大量重復(fù)的資源,會(huì)消耗掉更多的成本如儲(chǔ)存和檢索時(shí)間等。
因此,需要對(duì)網(wǎng)頁(yè)的原創(chuàng)權(quán)威性進(jìn)行評(píng)估,以便在進(jìn)行資源篩選、檢索端資源召回、檢索端排序策略等場(chǎng)景中時(shí),能夠?qū)⒛切┰瓌?chuàng)并且原創(chuàng)價(jià)值被認(rèn)可的資源展現(xiàn)給用戶,以便促進(jìn)搜索內(nèi)容生態(tài)的建設(shè)等。
但是,關(guān)于如何對(duì)網(wǎng)頁(yè)的原創(chuàng)權(quán)威性進(jìn)行評(píng)估,現(xiàn)有技術(shù)中還沒有一種有效的實(shí)現(xiàn)方式。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提供了基于人工智能的網(wǎng)頁(yè)原創(chuàng)評(píng)估方法、裝置及存儲(chǔ)介質(zhì)。
具體技術(shù)方案如下:
一種基于人工智能的網(wǎng)頁(yè)原創(chuàng)評(píng)估方法,包括:
針對(duì)從待處理的網(wǎng)頁(yè)中提取出的每個(gè)句子,分別獲取所述句子的權(quán)值,并識(shí)別出所述句子是否為原創(chuàng)句子;
根據(jù)識(shí)別結(jié)果以及獲取到的句子的權(quán)值確定出所述待處理的網(wǎng)頁(yè)的原創(chuàng)權(quán)威性。
一種基于人工智能的網(wǎng)頁(yè)原創(chuàng)評(píng)估裝置,包括:預(yù)處理模塊和評(píng)估模塊;
所述預(yù)處理模塊,用于針對(duì)從待處理的網(wǎng)頁(yè)中提取出的每個(gè)句子,分別獲取所述句子的權(quán)值,并識(shí)別出所述句子是否為原創(chuàng)句子;
所述評(píng)估模塊,用于根據(jù)所述預(yù)處理模塊的識(shí)別結(jié)果以及獲取到的句子的權(quán)值確定出所述待處理的網(wǎng)頁(yè)的原創(chuàng)權(quán)威性。
一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如以上所述的方法。
一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如以上所述的方法。
基于上述介紹可以看出,采用本發(fā)明所述方案,可針對(duì)從待處理的網(wǎng)頁(yè)中提取出的每個(gè)句子,分別獲取該句子的權(quán)值,并識(shí)別出該句子是否為原創(chuàng)句子,進(jìn)而根據(jù)識(shí)別結(jié)果以及獲取到的句子的權(quán)值確定出待處理的網(wǎng)頁(yè)的原創(chuàng)權(quán)威性,從而實(shí)現(xiàn)了對(duì)于網(wǎng)頁(yè)的原創(chuàng)權(quán)威性進(jìn)行有效的評(píng)估。
【附圖說明】
圖1為本發(fā)明所述基于人工智能的網(wǎng)頁(yè)原創(chuàng)評(píng)估方法實(shí)施例的流程圖。
圖2為本發(fā)明所述按照方式一進(jìn)行網(wǎng)頁(yè)的原創(chuàng)權(quán)威性評(píng)估的方法實(shí)施例的流程圖。
圖3為本發(fā)明所述基于人工智能的網(wǎng)頁(yè)原創(chuàng)評(píng)估裝置實(shí)施例的組成結(jié)構(gòu)示意圖。
圖4示出了適于用來(lái)實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)系統(tǒng)/服務(wù)器12的框圖。
【具體實(shí)施方式】
為了使本發(fā)明的技術(shù)方案更加清楚、明白,以下參照附圖并舉實(shí)施例,對(duì)本發(fā)明所述方案作進(jìn)一步地詳細(xì)說明。
圖1為本發(fā)明所述基于人工智能的網(wǎng)頁(yè)原創(chuàng)評(píng)估方法實(shí)施例的流程圖,如圖1所示,包括以下具體實(shí)現(xiàn)方式:
在101中,針對(duì)從待處理的網(wǎng)頁(yè)中提取出的每個(gè)句子,分別獲取該句子的權(quán)值,并識(shí)別出該句子是否為原創(chuàng)句子;
在102中,根據(jù)識(shí)別結(jié)果以及獲取到的句子的權(quán)值確定出待處理的網(wǎng)頁(yè)的原創(chuàng)權(quán)威性。
以下分別對(duì)上述各部分內(nèi)容的具體實(shí)現(xiàn)進(jìn)行詳細(xì)說明。
一)句子提取
對(duì)于任一網(wǎng)頁(yè),可通過頁(yè)面解析等,獲取該網(wǎng)頁(yè)的標(biāo)題(title)以及正文內(nèi)容(page域)等。
針對(duì)獲取到的正文內(nèi)容,可對(duì)其進(jìn)行句子切分,如可根據(jù)自然語(yǔ)言中具有句子完結(jié)意義的結(jié)束符及網(wǎng)頁(yè)源碼標(biāo)簽來(lái)切分句子,并可過濾掉過短的句子,自然語(yǔ)言中具有句子完結(jié)意義的結(jié)束符可包括“?!?、“?”以及“!”等。
之后,可分別計(jì)算出每個(gè)句子的權(quán)值,具體地,可針對(duì)每個(gè)句子分別進(jìn)行以下處理:按照基礎(chǔ)粒度對(duì)該句子進(jìn)行切詞及去停用詞處理,之后,根據(jù)處理結(jié)果計(jì)算該句子的權(quán)值,如將處理后得到的該句子中的各詞(term)的逆文本頻率(idf,inversedocumentfrequency)值相加,將相加之和作為該句子的權(quán)值,如何獲取idf值為現(xiàn)有技術(shù)。
對(duì)于每個(gè)網(wǎng)頁(yè),可按照權(quán)值由大到小的順序?qū)脑摼W(wǎng)頁(yè)的正文內(nèi)容中切分出的各句子進(jìn)行排序,并選出排序后處于前m位的句子,m為大于一的正整數(shù),進(jìn)而將選出的句子以及該網(wǎng)頁(yè)的標(biāo)題作為從該網(wǎng)頁(yè)中提取出的句子。
m的具體取值可根據(jù)實(shí)際需要而定,比如可為30,標(biāo)題可作為特殊句子進(jìn)行保留并標(biāo)識(shí)。
對(duì)于提取出的每個(gè)句子,還可在切詞和去停用詞處理的基礎(chǔ)上計(jì)算出該句子的句子簽名,如simhash值,simhash是一種常用的字符串hash算法,如果兩個(gè)句子相同,那么這兩個(gè)句子的simhash值也會(huì)相同,如果兩個(gè)句子相似,那么這兩個(gè)句子的simhash值的海明距離會(huì)很近。
二)句子原創(chuàng)識(shí)別
在實(shí)際應(yīng)用中,為便于搜索引擎進(jìn)行搜索等,可收集/采集大量的網(wǎng)頁(yè),保存在數(shù)據(jù)庫(kù)中,每個(gè)網(wǎng)頁(yè)分別具有各自的入庫(kù)時(shí)間等。
可按照一)中的方式,分別從保存在數(shù)據(jù)庫(kù)中的各網(wǎng)頁(yè)中提取出多個(gè)句子,之后,可根據(jù)提取出的句子生成句子級(jí)的原創(chuàng)查找詞典,如針對(duì)同一句子,通過比較該句子所在的不同網(wǎng)頁(yè)的入庫(kù)時(shí)間等區(qū)分出哪個(gè)網(wǎng)頁(yè)上的該句子為原創(chuàng)句子,哪個(gè)網(wǎng)頁(yè)上的該句子為非原創(chuàng)句子等,理論上來(lái)說,入庫(kù)時(shí)間最早的通常為原創(chuàng)的。
這樣,通過查詢?cè)瓌?chuàng)查找詞典,即可識(shí)別出從保存在數(shù)據(jù)庫(kù)中的任一網(wǎng)頁(yè)中提取出的任一句子是否為原創(chuàng)句子。
需要說明的是,以上僅為舉例說明,并不用于限制本發(fā)明的技術(shù)方案,除上述方式外,還可以采用本領(lǐng)域技術(shù)人員能夠想到的其它任意方式來(lái)對(duì)句子是否原創(chuàng)進(jìn)行識(shí)別。
三)網(wǎng)頁(yè)的原創(chuàng)權(quán)威性評(píng)估
原創(chuàng)權(quán)威性為本發(fā)明中提出的對(duì)于網(wǎng)頁(yè)的原創(chuàng)信息具有全新描述價(jià)值的一種特征,該特征的產(chǎn)生基于如下考量:如果某個(gè)網(wǎng)頁(yè)中的原創(chuàng)句子被其它網(wǎng)頁(yè)引用,那么該網(wǎng)頁(yè)就會(huì)被賦予一種量化的指標(biāo),用以描述該網(wǎng)頁(yè)在原創(chuàng)概念上具有某種形式的權(quán)威性。
理論上來(lái)說,對(duì)于一個(gè)網(wǎng)頁(yè)的原創(chuàng)權(quán)威性,在量化描述時(shí)希望具有如下的數(shù)值變化規(guī)律:
1)該網(wǎng)頁(yè)中的原創(chuàng)句子被越多的網(wǎng)頁(yè)引用/轉(zhuǎn)載,該網(wǎng)頁(yè)的原創(chuàng)權(quán)威性越大;
2)引用該網(wǎng)頁(yè)中的原創(chuàng)句子的網(wǎng)頁(yè)具有越大的原創(chuàng)權(quán)威性,該網(wǎng)頁(yè)的原創(chuàng)權(quán)威性越大。
基于上述考慮,對(duì)于網(wǎng)頁(yè)的原創(chuàng)權(quán)威性評(píng)估,本發(fā)明中提供了兩種實(shí)現(xiàn)方式,以下分別進(jìn)行介紹。
方式一
圖2為本發(fā)明所述按照方式一進(jìn)行網(wǎng)頁(yè)的原創(chuàng)權(quán)威性評(píng)估的方法實(shí)施例的流程圖,如圖2所示,包括以下具體實(shí)現(xiàn)方式。
在201中,將保存在數(shù)據(jù)庫(kù)中的各網(wǎng)頁(yè)均作為待處理的網(wǎng)頁(yè)。
即將保存在數(shù)據(jù)庫(kù)中的每個(gè)網(wǎng)頁(yè)均作為待處理的網(wǎng)頁(yè),后續(xù)同時(shí)確定出每個(gè)網(wǎng)頁(yè)的原創(chuàng)權(quán)威性。
在202中,根據(jù)識(shí)別結(jié)果分析出各網(wǎng)頁(yè)之間的引用關(guān)系,并根據(jù)分析結(jié)果確定出一系列有向邊,每條有向邊分別對(duì)應(yīng)兩個(gè)網(wǎng)頁(yè),且方向?yàn)閺钠渲幸粋€(gè)網(wǎng)頁(yè)指向另一個(gè)網(wǎng)頁(yè)。
可針對(duì)保存在數(shù)據(jù)庫(kù)中的每個(gè)網(wǎng)頁(yè),分別進(jìn)行以下處理:
將該網(wǎng)頁(yè)作為引用網(wǎng)頁(yè),分別確定出該引用網(wǎng)頁(yè)中的每個(gè)非原創(chuàng)句子對(duì)應(yīng)的原創(chuàng)句子所在的網(wǎng)頁(yè),將確定出的網(wǎng)頁(yè)進(jìn)行去重處理,將處理后得到的每個(gè)網(wǎng)頁(yè)分別作為該引用網(wǎng)頁(yè)對(duì)應(yīng)的引用來(lái)源網(wǎng)頁(yè);
分別利用該引用網(wǎng)頁(yè)及一個(gè)引用來(lái)源網(wǎng)頁(yè)構(gòu)成一條由該引用網(wǎng)頁(yè)指向引用來(lái)源網(wǎng)頁(yè)的有向邊。
比如,對(duì)于一個(gè)網(wǎng)頁(yè)a,在分別識(shí)別出從網(wǎng)頁(yè)a中提取出的各句子是否為原創(chuàng)句子之后,可分別確定出每個(gè)非原創(chuàng)句子對(duì)應(yīng)的原創(chuàng)句子所在的網(wǎng)頁(yè),即確定出非原創(chuàng)句子的引用來(lái)源,相應(yīng)地,可將確定出的網(wǎng)頁(yè)稱為引用來(lái)源網(wǎng)頁(yè)。
假設(shè)從網(wǎng)頁(yè)a中共提取出了30條句子,其中15條為原創(chuàng)句子,另外的15條為非原創(chuàng)句子,這15條非原創(chuàng)句子中,5條引用自網(wǎng)頁(yè)b,5條引用自網(wǎng)頁(yè)c,5條引用自網(wǎng)頁(yè)d,那么網(wǎng)頁(yè)b、網(wǎng)頁(yè)c和網(wǎng)頁(yè)d即為網(wǎng)頁(yè)a對(duì)應(yīng)的引用來(lái)源網(wǎng)頁(yè)。
相應(yīng)地,可得到3條有向邊,分別為從網(wǎng)頁(yè)a指向網(wǎng)頁(yè)b的有向邊、從網(wǎng)頁(yè)a指向網(wǎng)頁(yè)c的有向邊,以及,從網(wǎng)頁(yè)a指向網(wǎng)頁(yè)d的有向邊。
按照上述方式,針對(duì)保存在數(shù)據(jù)庫(kù)中的所有網(wǎng)頁(yè),可構(gòu)建出一幅網(wǎng)頁(yè)級(jí)的加權(quán)有向無(wú)環(huán)圖,對(duì)于兩個(gè)網(wǎng)頁(yè)來(lái)說,如果兩者之間存在引用關(guān)系,邊的方向是由入庫(kù)時(shí)間決定的,因此構(gòu)建出的圖必然是無(wú)環(huán)的。
在203中,根據(jù)識(shí)別結(jié)果及獲取到的句子的權(quán)值分別確定每條有向邊的權(quán)值。
對(duì)于每條有向邊來(lái)說,其權(quán)值是由引用句子的數(shù)量和引用句子的權(quán)值決定的,引用的句子越多,句子的權(quán)值越大,則有向邊的權(quán)值越大。
相應(yīng)地,對(duì)于每條有向邊,可分別進(jìn)行以下處理:
從該有向邊對(duì)應(yīng)的引用網(wǎng)頁(yè)中的非原創(chuàng)句子中篩選出符合要求的非原創(chuàng)句子,所述符合要求為:對(duì)應(yīng)的原創(chuàng)句子位于該有向邊對(duì)應(yīng)的引用來(lái)源網(wǎng)頁(yè)中;
計(jì)算篩選出的各非原創(chuàng)句子的權(quán)值之和,得到第一相加結(jié)果;
計(jì)算該有向邊對(duì)應(yīng)的引用網(wǎng)頁(yè)中的非原創(chuàng)句子的權(quán)值之和,得到第二相加結(jié)果;
用第一相加結(jié)果除以第二相加結(jié)果,將計(jì)算結(jié)果作為該有向邊的權(quán)值。
即對(duì)于任一有向邊,其權(quán)值
假設(shè)該有向邊對(duì)應(yīng)的引用網(wǎng)頁(yè)為網(wǎng)頁(yè)i,對(duì)應(yīng)的引用來(lái)源網(wǎng)頁(yè)為網(wǎng)頁(yè)j;
sj表示網(wǎng)頁(yè)i中的非原創(chuàng)句子中對(duì)應(yīng)的原創(chuàng)句子位于網(wǎng)頁(yè)j中的非原創(chuàng)句子的集合;
s表示位于集合sj中的句子,w(s)表示句子的權(quán)值,當(dāng)句子為原創(chuàng)句子時(shí),is取值為1,否則為0;
s表示從網(wǎng)頁(yè)i中提取出所有句子的集合,顯然,集合sj中的句子也會(huì)位于集合s中;
s'表示位于集合s中的句子,w(s')表示句子的權(quán)值,當(dāng)句子為原創(chuàng)句子時(shí),is取值為1,否則為0,由于(1-1)*w(s')=0,因此,
在204中,根據(jù)所有有向邊的權(quán)值同時(shí)確定出各網(wǎng)頁(yè)的原創(chuàng)權(quán)威性。
對(duì)于獲取到的各有向邊的權(quán)值,可首先對(duì)其進(jìn)行正則化處理,將處理結(jié)果作為迭代算法的轉(zhuǎn)移概率。
對(duì)于任一網(wǎng)頁(yè)a來(lái)說,假設(shè)共存在3條由網(wǎng)頁(yè)a指向其它網(wǎng)頁(yè)的有向邊,所述其它網(wǎng)頁(yè)分別為網(wǎng)頁(yè)b、網(wǎng)頁(yè)c和網(wǎng)頁(yè)d,可分別計(jì)算出每條有向邊的權(quán)值,假設(shè)分別為權(quán)值b、權(quán)值c和權(quán)值d,那么,對(duì)這3個(gè)權(quán)值進(jìn)行正則化處理的方式可分別為:
權(quán)值b'=權(quán)值b/(權(quán)值b+權(quán)值c+權(quán)值d);
權(quán)值c'=權(quán)值c/(權(quán)值b+權(quán)值c+權(quán)值d);
權(quán)值d'=權(quán)值d/(權(quán)值b+權(quán)值c+權(quán)值d);
權(quán)值權(quán)值b'、權(quán)值c'和權(quán)值d'即為進(jìn)行正則化處理之后得到的3個(gè)轉(zhuǎn)移概率。
根據(jù)所有轉(zhuǎn)移概率可以構(gòu)成一個(gè)p*p的轉(zhuǎn)移概率矩陣,p為正整數(shù),取值等于保存在數(shù)據(jù)庫(kù)中的網(wǎng)頁(yè)數(shù)。
假設(shè)數(shù)據(jù)庫(kù)中共保存有10個(gè)網(wǎng)頁(yè)(實(shí)際遠(yuǎn)大于此),那么可得到一個(gè)10*10的轉(zhuǎn)移概率矩陣,其中的每個(gè)元素即可為計(jì)算出的一個(gè)轉(zhuǎn)移概率,比如,坐標(biāo)位置為(2,3)的元素可表示從網(wǎng)頁(yè)2指向網(wǎng)頁(yè)3的有向邊對(duì)應(yīng)的轉(zhuǎn)移概率。
根據(jù)轉(zhuǎn)移概率矩陣,通過迭代算法,可同時(shí)確定出各網(wǎng)頁(yè)的原創(chuàng)權(quán)威性。
具體地,可首先設(shè)置一個(gè)p維的全1縱向量e。
之后,可進(jìn)行迭代運(yùn)算,包括:計(jì)算原創(chuàng)權(quán)威性向量與轉(zhuǎn)移概率矩陣的乘積,并將乘積與e相加,其中,首次迭代時(shí),將e作為原創(chuàng)權(quán)威性向量;
確定是否達(dá)到迭代收斂,如果否,則將相加之和作為原創(chuàng)權(quán)威性向量,并重復(fù)執(zhí)行所述迭代運(yùn)算,如果是,則將原創(chuàng)權(quán)威性向量中的每個(gè)元素分別作為一個(gè)網(wǎng)頁(yè)的原創(chuàng)權(quán)威性評(píng)分。
即有:vi+1=wvi+e;(2)
v表示原創(chuàng)權(quán)威性向量,首次迭代時(shí),v=e;
w表示轉(zhuǎn)移概率矩陣。
最終得到的vi+1將會(huì)是一個(gè)p維的縱向量,其中的每個(gè)元素即為保存在數(shù)據(jù)庫(kù)中的一個(gè)網(wǎng)頁(yè)的原創(chuàng)權(quán)威性評(píng)分。
迭代過程的物理意義是:一個(gè)網(wǎng)頁(yè)的原創(chuàng)權(quán)威性,是由初始原創(chuàng)權(quán)威性(e)和其它網(wǎng)頁(yè)轉(zhuǎn)移的原創(chuàng)權(quán)威性累加得到的,對(duì)于任一網(wǎng)頁(yè)x,如果引用網(wǎng)頁(yè)x中的原創(chuàng)句子的網(wǎng)頁(yè)越多,并且引用的網(wǎng)頁(yè)自身的原創(chuàng)權(quán)威性越大,那么根據(jù)迭代運(yùn)算網(wǎng)頁(yè)x的原創(chuàng)權(quán)威性也越大,這和期望的數(shù)值變化規(guī)律是相符的,同時(shí)由于之前所述的加權(quán)有向無(wú)環(huán)圖,因此保證了迭代策略的收斂性。
如何確定是否達(dá)到迭代收斂為現(xiàn)有技術(shù)。
方式二
為獲取網(wǎng)頁(yè)的原創(chuàng)權(quán)威性,除了可采用上述方式一之外,還可以采用本發(fā)明中所述的方式二。
該方式中,可將保存在數(shù)據(jù)庫(kù)中的任一網(wǎng)頁(yè)作為待處理的網(wǎng)頁(yè),即可單獨(dú)確定出一個(gè)網(wǎng)頁(yè)的原創(chuàng)權(quán)威性,而不是像方式一中必須同時(shí)確定出所有網(wǎng)頁(yè)的原創(chuàng)權(quán)威性。
針對(duì)待處理的網(wǎng)頁(yè)中的每個(gè)原創(chuàng)句子,可分別計(jì)算該原創(chuàng)句子的權(quán)值與該原創(chuàng)句子對(duì)應(yīng)的倒排拉鏈長(zhǎng)度的乘積。
之后,可將各原創(chuàng)句子對(duì)應(yīng)的乘積相加,將相加之和作為待處理的網(wǎng)頁(yè)的原創(chuàng)權(quán)威性評(píng)分。
即有:
其中,org_auth(ui)表示待處理的網(wǎng)頁(yè)的原創(chuàng)權(quán)威性評(píng)分;
n表示從待處理的網(wǎng)頁(yè)中提取出的句子數(shù),對(duì)于任一句子,若為原創(chuàng)句子,則ij取值為1,否則為0;
w(j)表示句子的權(quán)值,fj表示句子對(duì)應(yīng)的倒排拉鏈長(zhǎng)度;
由于對(duì)于非原創(chuàng)句子來(lái)說,ij*fj*w(j)=0,因此公式(3)中相當(dāng)于是將各原創(chuàng)句子對(duì)應(yīng)的乘積相加。
一個(gè)句子的倒排拉鏈長(zhǎng)度可以是指:數(shù)據(jù)庫(kù)中包含該句子的網(wǎng)頁(yè)數(shù),或者,、數(shù)據(jù)庫(kù)中包含該句子或該句子的鄰近句子的網(wǎng)頁(yè)數(shù),鄰近句子為與該句子的句子簽名之間的海明距離小于預(yù)定閾值的句子,所述閾值的具體取值可根據(jù)實(shí)際需要而定。
比如,句子a的句子簽名與句子b的句子簽名之間的海明距離小于所述閾值,則句子b為句子a的鄰近句子,同樣,句子a也為句子b的鄰近句子,如何計(jì)算海明距離為現(xiàn)有技術(shù)。
相比于方式一,方式二中不需要進(jìn)行迭代運(yùn)算,因此可節(jié)省計(jì)算資源等。
以上是關(guān)于方法實(shí)施例的介紹,以下通過裝置實(shí)施例,對(duì)本發(fā)明所述方案進(jìn)行進(jìn)一步說明。
圖3為本發(fā)明所述基于人工智能的網(wǎng)頁(yè)原創(chuàng)評(píng)估裝置實(shí)施例的組成結(jié)構(gòu)示意圖,如圖3所示,包括:預(yù)處理模塊301和評(píng)估模塊302。
預(yù)處理模塊301,用于針對(duì)從待處理的網(wǎng)頁(yè)中提取出的每個(gè)句子,分別獲取該句子的權(quán)值,并識(shí)別出該句子是否為原創(chuàng)句子。
評(píng)估模塊302,用于根據(jù)預(yù)處理模塊301的識(shí)別結(jié)果以及獲取到的句子的權(quán)值確定出待處理的網(wǎng)頁(yè)的原創(chuàng)權(quán)威性。
具體地,預(yù)處理模塊301可按照以下方式來(lái)對(duì)待處理的網(wǎng)頁(yè)進(jìn)行句子提取:
獲取待處理的網(wǎng)頁(yè)的標(biāo)題以及正文內(nèi)容;
對(duì)正文內(nèi)容進(jìn)行句子切分,并分別計(jì)算切分出的每個(gè)句子的權(quán)值;
按照權(quán)值由大到小的順序?qū)η蟹殖龅母骶渥舆M(jìn)行排序;
選出排序后處于前m位的句子,m為大于一的正整數(shù),將選出的句子以及所述標(biāo)題作為提取出的句子。
其中,預(yù)處理模塊301可針對(duì)切分出的每個(gè)句子,分別對(duì)該句子進(jìn)行切詞和去停用詞處理,并將處理后得到的各詞的idf值相加,將相加之和作為該句子的權(quán)值。
如圖3所示,評(píng)估模塊302中可包括:第一評(píng)估單元3021。
第一評(píng)估單元3021中可進(jìn)一步包括:第一確定子單元30211以及第二確定子單元30212。
第一確定子單元30211,用于將保存在數(shù)據(jù)庫(kù)中的各網(wǎng)頁(yè)均作為待處理的網(wǎng)頁(yè);根據(jù)識(shí)別結(jié)果分析出各網(wǎng)頁(yè)之間的引用關(guān)系,并根據(jù)分析結(jié)果確定出一系列有向邊,每條有向邊分別對(duì)應(yīng)兩個(gè)網(wǎng)頁(yè),且方向?yàn)閺钠渲幸粋€(gè)網(wǎng)頁(yè)指向另一個(gè)網(wǎng)頁(yè);根據(jù)識(shí)別結(jié)果及獲取到的句子的權(quán)值分別確定每條有向邊的權(quán)值;
第二確定子單元30212,用于根據(jù)所有有向邊的權(quán)值同時(shí)確定出各網(wǎng)頁(yè)的原創(chuàng)權(quán)威性。
具體地,第一確定子單元30211可針對(duì)每個(gè)網(wǎng)頁(yè),分別進(jìn)行以下處理:
將該網(wǎng)頁(yè)作為引用網(wǎng)頁(yè),分別確定出該引用網(wǎng)頁(yè)中的每個(gè)非原創(chuàng)句子對(duì)應(yīng)的原創(chuàng)句子所在的網(wǎng)頁(yè),將確定出的網(wǎng)頁(yè)進(jìn)行去重處理,將處理后得到的每個(gè)網(wǎng)頁(yè)分別作為該引用網(wǎng)頁(yè)對(duì)應(yīng)的引用來(lái)源網(wǎng)頁(yè);
分別利用該引用網(wǎng)頁(yè)及一個(gè)引用來(lái)源網(wǎng)頁(yè)構(gòu)成一條由該引用網(wǎng)頁(yè)指向引用來(lái)源網(wǎng)頁(yè)的有向邊。
其中,第一確定子單元30211可針對(duì)每條有向邊,分別從該有向邊對(duì)應(yīng)的引用網(wǎng)頁(yè)中的非原創(chuàng)句子中篩選出符合要求的非原創(chuàng)句子,所述符合要求為:對(duì)應(yīng)的原創(chuàng)句子位于該有向邊對(duì)應(yīng)的引用來(lái)源網(wǎng)頁(yè)中;計(jì)算篩選出的各非原創(chuàng)句子的權(quán)值之和,得到第一相加結(jié)果;計(jì)算該有向邊對(duì)應(yīng)的引用網(wǎng)頁(yè)中的非原創(chuàng)句子的權(quán)值之和,得到第二相加結(jié)果;用第一相加結(jié)果除以第二相加結(jié)果,將計(jì)算結(jié)果作為該有向邊的權(quán)值。
第二確定子單元30212可分別對(duì)各條有向邊的權(quán)值進(jìn)行正則化處理,將處理結(jié)果作為迭代算法的轉(zhuǎn)移概率;根據(jù)所有轉(zhuǎn)移概率構(gòu)成一個(gè)p*p的轉(zhuǎn)移概率矩陣,p為正整數(shù),取值等于保存在數(shù)據(jù)庫(kù)中的網(wǎng)頁(yè)數(shù);根據(jù)轉(zhuǎn)移概率矩陣,通過迭代算法,同時(shí)確定出各網(wǎng)頁(yè)的原創(chuàng)權(quán)威性。
具體地,第二確定子單元30212可設(shè)置一個(gè)p維的全1縱向量e;
進(jìn)行迭代運(yùn)算,包括:計(jì)算原創(chuàng)權(quán)威性向量與轉(zhuǎn)移概率矩陣的乘積,并將乘積與e相加,其中,首次迭代時(shí),將e作為原創(chuàng)權(quán)威性向量;
確定是否達(dá)到迭代收斂,如果否,則將相加之和作為原創(chuàng)權(quán)威性向量,并重復(fù)執(zhí)行所述迭代運(yùn)算,如果是,則將原創(chuàng)權(quán)威性向量中的每個(gè)元素分別作為一個(gè)網(wǎng)頁(yè)的原創(chuàng)權(quán)威性評(píng)分。
如圖3所示,評(píng)估模塊302中還可進(jìn)一步包括:第二評(píng)估單元3022。
第二評(píng)估單元3022,用于將保存在數(shù)據(jù)庫(kù)中的任一網(wǎng)頁(yè)作為待處理的網(wǎng)頁(yè);針對(duì)待處理的網(wǎng)頁(yè)中的每個(gè)原創(chuàng)句子,分別計(jì)算該原創(chuàng)句子的權(quán)值與該原創(chuàng)句子對(duì)應(yīng)的倒排拉鏈長(zhǎng)度的乘積;將各原創(chuàng)句子對(duì)應(yīng)的乘積相加,將相加之和作為待處理的網(wǎng)頁(yè)的原創(chuàng)權(quán)威性評(píng)分。
其中,倒排拉鏈長(zhǎng)度包括:數(shù)據(jù)庫(kù)中包含該原創(chuàng)句子的網(wǎng)頁(yè)數(shù),或者,數(shù)據(jù)庫(kù)中包含該原創(chuàng)句子或該原創(chuàng)句子的鄰近句子的網(wǎng)頁(yè)數(shù),所述鄰近句子為與該原創(chuàng)句子的句子簽名之間的海明距離小于預(yù)定閾值的句子。
圖3所示裝置實(shí)施例的具體工作流程請(qǐng)參照前述方法實(shí)施例中的相應(yīng)說明,不再贅述。
圖4示出了適于用來(lái)實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)系統(tǒng)/服務(wù)器12的框圖。圖4顯示的計(jì)算機(jī)系統(tǒng)/服務(wù)器12僅僅是一個(gè)示例,不應(yīng)對(duì)本發(fā)明實(shí)施例的功能和使用范圍帶來(lái)任何限制。
如圖4所示,計(jì)算機(jī)系統(tǒng)/服務(wù)器12以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算機(jī)系統(tǒng)/服務(wù)器12的組件可以包括但不限于:一個(gè)或者多個(gè)處理器(處理模塊)16,存儲(chǔ)器28,連接不同系統(tǒng)組件(包括存儲(chǔ)器28和處理器16)的總線18。
總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲(chǔ)器總線或者存儲(chǔ)器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來(lái)說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(isa)總線,微通道體系結(jié)構(gòu)(mac)總線,增強(qiáng)型isa總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(vesa)局域總線以及外圍組件互連(pci)總線。
計(jì)算機(jī)系統(tǒng)/服務(wù)器12典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計(jì)算機(jī)系統(tǒng)/服務(wù)器12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動(dòng)的和不可移動(dòng)的介質(zhì)。
存儲(chǔ)器28可以包括易失性存儲(chǔ)器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲(chǔ)器(ram)30和/或高速緩存存儲(chǔ)器32。計(jì)算機(jī)系統(tǒng)/服務(wù)器12可以進(jìn)一步包括其它可移動(dòng)/不可移動(dòng)的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲(chǔ)介質(zhì)。僅作為舉例,存儲(chǔ)系統(tǒng)34可以用于讀寫不可移動(dòng)的、非易失性磁介質(zhì)(圖4未顯示,通常稱為“硬盤驅(qū)動(dòng)器”)。盡管圖4中未示出,可以提供用于對(duì)可移動(dòng)非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動(dòng)器,以及對(duì)可移動(dòng)非易失性光盤(例如cd-rom,dvd-rom或者其它光介質(zhì))讀寫的光盤驅(qū)動(dòng)器。在這些情況下,每個(gè)驅(qū)動(dòng)器可以通過一個(gè)或者多個(gè)數(shù)據(jù)介質(zhì)接口與總線18相連。存儲(chǔ)器28可以包括至少一個(gè)程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個(gè))程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實(shí)施例的功能。
具有一組(至少一個(gè))程序模塊42的程序/實(shí)用工具40,可以存儲(chǔ)在例如存儲(chǔ)器28中,這樣的程序模塊42包括——但不限于——操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實(shí)施例中的功能和/或方法。
計(jì)算機(jī)系統(tǒng)/服務(wù)器12也可以與一個(gè)或多個(gè)外部設(shè)備14(例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個(gè)或者多個(gè)使得用戶能與該計(jì)算機(jī)系統(tǒng)/服務(wù)器12交互的設(shè)備通信,和/或與使得該計(jì)算機(jī)系統(tǒng)/服務(wù)器12能與一個(gè)或多個(gè)其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口22進(jìn)行。并且,計(jì)算機(jī)系統(tǒng)/服務(wù)器12還可以通過網(wǎng)絡(luò)適配器20與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖4所示,網(wǎng)絡(luò)適配器20通過總線18與計(jì)算機(jī)系統(tǒng)/服務(wù)器12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計(jì)算機(jī)系統(tǒng)/服務(wù)器12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動(dòng)器、冗余處理模塊、外部磁盤驅(qū)動(dòng)陣列、raid系統(tǒng)、磁帶驅(qū)動(dòng)器以及數(shù)據(jù)備份存儲(chǔ)系統(tǒng)等。
處理器16通過運(yùn)行存儲(chǔ)在存儲(chǔ)器28中的程序,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,例如實(shí)現(xiàn)圖1所示實(shí)施例中的方法,即針對(duì)從待處理的網(wǎng)頁(yè)中提取出的每個(gè)句子,分別獲取該句子的權(quán)值,并識(shí)別出該句子是否為原創(chuàng)句子,根據(jù)識(shí)別結(jié)果以及獲取到的句子的權(quán)值確定出待處理的網(wǎng)頁(yè)的原創(chuàng)權(quán)威性。
具體來(lái)說,至少可以有方式一和方式二兩種實(shí)現(xiàn)方法,請(qǐng)參照?qǐng)D1所示方法實(shí)施例中的相關(guān)說明,不再贅述。
本發(fā)明同時(shí)公開了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)將實(shí)現(xiàn)如圖1所示實(shí)施例中的方法。
可以采用一個(gè)或多個(gè)計(jì)算機(jī)可讀的介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、可擦式可編程只讀存儲(chǔ)器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲(chǔ)器(cd-rom)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括——但不限于——電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)還可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括——但不限于——無(wú)線、電線、光纜、rf等等,或者上述的任意合適的組合。
可以以一種或多種程序設(shè)計(jì)語(yǔ)言或其組合來(lái)編寫用于執(zhí)行本發(fā)明操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語(yǔ)言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語(yǔ)言—諸如java、smalltalk、c++,還包括常規(guī)的過程式程序設(shè)計(jì)語(yǔ)言—諸如”c”語(yǔ)言或類似的程序設(shè)計(jì)語(yǔ)言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過任意種類的網(wǎng)絡(luò)——包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)—連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來(lái)通過因特網(wǎng)連接)。
在本發(fā)明所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的裝置和方法等,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理模塊中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。
上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。上述軟件功能單元存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤、移動(dòng)硬盤、只讀存儲(chǔ)器(rom,read-onlymemory)、隨機(jī)存取存儲(chǔ)器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。