本發(fā)明涉及新聞推薦系統(tǒng)的算法優(yōu)化,更具體的來說,提出了一種時間和內(nèi)容感知的新聞推薦系統(tǒng)流行度去偏差方法。
背景技術(shù):
1、隨著在線新聞服務(wù)的便捷與實(shí)時更新特性,眾多讀者已經(jīng)由閱讀紙質(zhì)報刊轉(zhuǎn)向了電子新聞的方式。但是,鑒于每日涌現(xiàn)的新聞報道數(shù)量龐大,對于用戶而言,從海量新聞中挑選出感興趣的內(nèi)容幾乎是不可能的任務(wù),這導(dǎo)致了用戶及網(wǎng)站面臨“信息超載”的挑戰(zhàn)。因此,采用個性化推薦系統(tǒng)來基于用戶偏好篩選新聞成為了解決方案。對新聞平臺而言,這種技術(shù)對可以減少信息超載給用戶帶來的壓力,并優(yōu)化他們的新聞瀏覽體驗(yàn)。然而,新聞推薦系統(tǒng)會受到新聞流行度的影響,導(dǎo)致推薦結(jié)果有偏差、性能不盡人意。因?yàn)榱餍械男侣勎恼聲@得更多的曝光率,而且往往會被傳遞給不相關(guān)的用戶。現(xiàn)有方法不足以解決新聞推薦中的流行度偏差問題,這主要是由于忽略了時間因素,以及新聞內(nèi)容對流行度的影響。它們雖然增加了不流行的新聞被推薦的可能性,但過時的新聞通常流行度較低,因此也會被推薦給用戶,這可能會導(dǎo)致不合理的推薦。要實(shí)現(xiàn)更合理的去偏差推薦,就必須在緩解流行度偏差的過程中考慮時間因素。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要解決的技術(shù)問題是解決現(xiàn)有技術(shù)直接將聚類算法應(yīng)用于大規(guī)模數(shù)據(jù)集可能導(dǎo)致計算復(fù)雜度高、耗時長的問題。
2、本發(fā)明采用了如下技術(shù)方案:一種時間和內(nèi)容感知的新聞推薦系統(tǒng)流行度去偏差方法,包括如下步驟:
3、(a)對新聞數(shù)據(jù)集進(jìn)行預(yù)處理:
4、計算每則新聞的時效性,方式如下:新聞在數(shù)據(jù)集中最早出現(xiàn)的時間為,則新聞在給定時刻的時效性為,對于一則新聞所具有的每個實(shí)體和每個單詞在一小時內(nèi)的點(diǎn)擊率,作為它們的流行度,分別以和表示,其中表示每個實(shí)體所給定計算的時刻,表示每個單詞所給定計算的時刻,點(diǎn)擊率是指在規(guī)定的一小時內(nèi),實(shí)體或單詞的點(diǎn)擊次數(shù)占其展示次數(shù)的比例;
5、(b)構(gòu)建tccm模型:
6、對于時間模塊的構(gòu)建,利用時間嵌入層先將代表新聞時效性的量化數(shù)值轉(zhuǎn)化為嵌入向量,隨后,利用密集網(wǎng)絡(luò)處理并預(yù)測一個時間分?jǐn)?shù),轉(zhuǎn)化公式為:,其中,表示輸入特征,表示權(quán)重矩陣,表示對其進(jìn)行轉(zhuǎn)置,為偏置量;
7、對于流行度模塊的構(gòu)建,包括如下步驟:s1將每個實(shí)體和單詞的流行度轉(zhuǎn)化為向量和作為模輸入;s2利用多頭自注意力網(wǎng)絡(luò)捕捉實(shí)體的關(guān)聯(lián)性來學(xué)習(xí)每個實(shí)體的流行度表征;利用多頭自注意力網(wǎng)絡(luò)捕捉單詞的關(guān)聯(lián)性來學(xué)習(xí)每個單詞的流行度表征;s3利用實(shí)體多頭交叉注意力網(wǎng)絡(luò)從新聞上下文中學(xué)習(xí)每個實(shí)體的流行度表征;利用單詞多頭交叉注意力網(wǎng)絡(luò)從新聞上下文中學(xué)習(xí)每個單詞的流行度表征;s4將每個實(shí)體和單詞流行度的統(tǒng)一表征公式化為由所述注意力網(wǎng)絡(luò)和所述交叉注意力網(wǎng)絡(luò)學(xué)習(xí)的其表征的總和;s5使用注意力網(wǎng)絡(luò)從步驟s4所述的每個實(shí)體、單詞流行度的統(tǒng)一表征中學(xué)習(xí)基于實(shí)體的新聞流行度表征和基于單詞的新聞表示;s6通過注意力網(wǎng)絡(luò)學(xué)習(xí)基于實(shí)體的新聞流行度表征和基于單詞的新聞表示的加權(quán)組合,獲得統(tǒng)一的新聞流行度表征;s7將新聞流行度的表征使用全連接網(wǎng)絡(luò)量化,并除以量化后的新聞時效性,得到整個新聞的流行度;
8、對于用戶內(nèi)容匹配模塊,使用用戶和新聞嵌入的內(nèi)積來計算匹配分?jǐn)?shù),,其中,和分別表示用戶和新聞的嵌入,表示時間;
9、對時間、流行度和用戶偏好三種因素影響通過加法計算進(jìn)行融合,從而獲得tccm模型,其表達(dá)式為:,其中表示用戶對新聞時效性和新聞流行度的傾向程度,為隨機(jī)初始化的訓(xùn)練參數(shù)矩陣,表示流行度傾向程度,表示時間傾向程度,表示用戶點(diǎn)擊一則新聞,受該新聞時效性和流行度的影響程度;
10、(c)進(jìn)行模型訓(xùn)練:
11、利用數(shù)據(jù)集訓(xùn)練模型,采用bpr損失函數(shù),通過最大限度的區(qū)分正樣本和負(fù)樣本,提高模型理解正樣本特征的能力,計算方式為:
12、其中,和分別代表第條新聞的正樣本和負(fù)樣本的交互得分,代表訓(xùn)練數(shù)據(jù)集,代表名為sigmoid的激活函數(shù),sigmoid激活函數(shù)表達(dá)式:,是自然常數(shù),是輸入變量;
13、(d)在推理階段進(jìn)行因果干預(yù),緩解流行度偏差:在推理階段控制新聞實(shí)體以及單詞的流行度值,將其設(shè)置為低于平均值,以此降低流行度的影響,來緩解流行度偏差。
14、優(yōu)選地,所述構(gòu)建tccm模型中對于流行度模塊的構(gòu)建采用如下公式進(jìn)行計算:
15、,,,,,
16、,
17、;
18、其中,,,的表達(dá)式為:
19、
20、
21、
22、
23、表示輸入特征,表示權(quán)重矩陣,為偏置量,計算和相似度;表示對括號內(nèi)的值進(jìn)行歸一化操作;是輸入向量或者隱藏層維度;concat是拼接函數(shù);q、k、v分別代表查詢向量、鍵向量、值向量。
24、本發(fā)明具有如下有益效果:本發(fā)明提出了一種新的模型,名為時間和內(nèi)容感知的因果模型(tccm)。該模型建模了三個因素對用戶交互行為的影響,即新聞的時效性、新聞的流行度以及新聞內(nèi)容與用戶興趣的匹配度。此外,tccm?應(yīng)用因果干預(yù)技術(shù),在推理階段控制流行度變量,獲得去偏推薦。要更好的緩解新聞推薦系統(tǒng)的流行度偏差,準(zhǔn)確的新聞流行度估計至關(guān)重要。為此,本發(fā)明提出了一種新的流行度估計方法。該方法考慮了新聞內(nèi)容對流行度的影響,通過結(jié)合新聞內(nèi)容(實(shí)體和單詞的流行度),更準(zhǔn)確地估算新聞流行度。
1.一種時間和內(nèi)容感知的新聞推薦系統(tǒng)流行度去偏差方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的間和內(nèi)容感知的新聞推薦系統(tǒng)流行度去偏差方法,其特征在于,所述構(gòu)建tccm模型中對于流行度模塊的構(gòu)建采用如下公式進(jìn)行計算: