本公開涉及數(shù)據(jù)處理,尤其涉及一種用戶畫像模型的訓(xùn)練方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著智能手機(jī)、智能平板等移動(dòng)終端設(shè)備的普及使用,每時(shí)每刻都有用戶使用終端上網(wǎng)看資訊、玩游戲、上網(wǎng)課等等,進(jìn)而在電信運(yùn)營(yíng)商的服務(wù)器中產(chǎn)生并存儲(chǔ)了海量的上網(wǎng)行為記錄。
2、目前,針對(duì)這部分上網(wǎng)行為記錄數(shù)據(jù)進(jìn)行用戶建模,并應(yīng)用于特定人群畫像是大數(shù)據(jù)合理變現(xiàn)的基礎(chǔ),更是行業(yè)發(fā)展的必然趨勢(shì)?,F(xiàn)有的網(wǎng)絡(luò)行為數(shù)據(jù)用戶建模方法,通常為將各個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)行為日志數(shù)據(jù)傳輸?shù)皆乒?jié)點(diǎn),并在云節(jié)點(diǎn)對(duì)數(shù)據(jù)進(jìn)行篩選,并根據(jù)篩選后的網(wǎng)絡(luò)行為日志統(tǒng)一進(jìn)行模型訓(xùn)練。
3、上述方法雖然能夠?qū)崿F(xiàn)對(duì)特定人群畫像的生成,但是云節(jié)點(diǎn)將邊緣節(jié)點(diǎn)的數(shù)據(jù)合并在一起,開展集中式的模型訓(xùn)練,由于各地人口不同、風(fēng)俗差異,人口數(shù)量少的地區(qū)(網(wǎng)絡(luò)行為數(shù)據(jù)相對(duì)較少)的地域上網(wǎng)行為特征被弱化,容易引起畫像模型訓(xùn)練結(jié)果過(guò)度擬合,模型不再適用某些省份、地區(qū)。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供了一種用戶畫像模型的訓(xùn)練方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。其主要目的在于解決畫像模型訓(xùn)練結(jié)果過(guò)度擬合,模型不再適用某些省份、地區(qū)的問(wèn)題。
2、根據(jù)本公開的第一方面,提供了一種用戶畫像模型的訓(xùn)練方法,其中,包括:
3、分別獲取各邊緣節(jié)點(diǎn)中的各目標(biāo)用戶的上網(wǎng)日志url記錄及用戶信息;
4、根據(jù)各所述目標(biāo)用戶的上網(wǎng)日志url記錄,計(jì)算url特征向量;
5、根據(jù)各所述目標(biāo)用戶的用戶信息,生成共有屬性特征向量及特有特征向量;
6、根據(jù)預(yù)設(shè)算法及所述url特征向量、共有屬性特征向量、特有特征向量以及每個(gè)特征向量對(duì)應(yīng)的權(quán)重系數(shù),計(jì)算模型輸入特征向量;
7、根據(jù)所述模型輸入特征向量與訓(xùn)練用畫像樣本數(shù)據(jù)對(duì)預(yù)設(shè)用戶畫像模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的預(yù)設(shè)畫像模型。
8、可選的,在分別獲取各邊緣節(jié)點(diǎn)中的各目標(biāo)用戶的上網(wǎng)日志記錄及用戶信息之后,所述方法還包括:
9、根據(jù)每個(gè)邊緣節(jié)點(diǎn)中每個(gè)目標(biāo)用戶的上網(wǎng)日志url記錄,分別生成每個(gè)目標(biāo)用戶的上網(wǎng)日志url記錄集合;
10、根據(jù)每個(gè)邊緣節(jié)點(diǎn)中的每個(gè)所述目標(biāo)用戶的用戶信息,生成每個(gè)邊緣節(jié)點(diǎn)的用戶屬性集合。
11、可選的,所述根據(jù)各所述目標(biāo)用戶的上網(wǎng)日志記錄,計(jì)算url特征向量包括:
12、根據(jù)各所述目標(biāo)用戶的上網(wǎng)日志url記錄集合,計(jì)算每個(gè)邊緣節(jié)點(diǎn)的上網(wǎng)日志url記錄集合的第一目標(biāo)交集;
13、將所述第一目標(biāo)交集內(nèi)的每條url記錄按照各自的標(biāo)簽關(guān)鍵字進(jìn)行標(biāo)注,并將具有相同標(biāo)簽的url記錄置于同一分組內(nèi),得到url特征向量;其中,所述url特征向量中包含全部所述url分組。
14、可選的,所述根據(jù)各所述目標(biāo)用戶的用戶信息,生成共有屬性特征向量及特有特征向量還包括:
15、根據(jù)所述每個(gè)邊緣節(jié)點(diǎn)的用戶屬性,計(jì)算所述每個(gè)邊緣節(jié)點(diǎn)的用戶屬性的交集,得到共有屬性特征向量;
16、根據(jù)所述第二目標(biāo)交集,分別計(jì)算每個(gè)邊緣節(jié)點(diǎn)的用戶屬性的差集,得到每個(gè)邊緣節(jié)點(diǎn)的特有屬性特征向量。
17、可選的,所述根據(jù)預(yù)設(shè)算法及所述url特征向量、共有屬性特征向量及特有特征向量,計(jì)算模型輸入特征向量包括:
18、根據(jù)預(yù)設(shè)算法及所述url特征向量、第一權(quán)重系數(shù)、共有屬性特征向量、第二權(quán)重系數(shù)、特有特征向量、第三權(quán)重系數(shù),計(jì)算模型輸入特征向量。
19、可選的,在根據(jù)預(yù)設(shè)算法及所述url特征向量、第一權(quán)重系數(shù)、共有屬性特征向量、第二權(quán)重系數(shù)、特有特征向量、第三權(quán)重系數(shù),計(jì)算模型輸入特征向量之前,所述方法還包括:
20、獲取初始第一權(quán)重系數(shù)、初始第二權(quán)重系數(shù)及初始第三權(quán)重系數(shù);
21、基于梯度下降法及預(yù)設(shè)迭代次數(shù),分別對(duì)所述初始第一權(quán)重系數(shù)、初始第二權(quán)重系數(shù)及初始第三權(quán)重系數(shù)進(jìn)行迭代減弱;
22、分別根據(jù)各個(gè)邊緣節(jié)點(diǎn)對(duì)應(yīng)的預(yù)設(shè)訓(xùn)練數(shù)據(jù)及預(yù)設(shè)迭代算法,對(duì)迭代計(jì)算后的所述初始第一權(quán)重系數(shù)、初始第二權(quán)重系數(shù)及初始第三權(quán)重系數(shù)進(jìn)行迭代增強(qiáng),得到各個(gè)邊緣節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練好的初始第一權(quán)重系數(shù)、初始第二權(quán)重系數(shù)及初始第三權(quán)重系數(shù);
23、根據(jù)各個(gè)邊緣節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練好的初始第一權(quán)重系數(shù)、初始第二權(quán)重系數(shù)及初始第三權(quán)重系數(shù)進(jìn)行匯總,得到第一權(quán)重系數(shù)、第二權(quán)重系數(shù)及第三權(quán)重系數(shù);
24、重復(fù)上述訓(xùn)練過(guò)程,直至第一權(quán)重系數(shù)、第二權(quán)重系數(shù)及第三權(quán)重系數(shù)都滿足預(yù)設(shè)收斂條件后,停止訓(xùn)練,得到訓(xùn)練好的第一權(quán)重系數(shù)、第二權(quán)重系數(shù)及第三權(quán)重系數(shù)。
25、可選的,在根據(jù)預(yù)設(shè)訓(xùn)練數(shù)據(jù)及預(yù)設(shè)迭代算法,對(duì)迭代計(jì)算后的所述第一權(quán)重系數(shù)、初始第二權(quán)重系數(shù)及初始第三權(quán)重系數(shù)進(jìn)行迭代增強(qiáng)之前,所述方法還包括:
26、獲取各個(gè)邊緣節(jié)點(diǎn)的預(yù)設(shè)時(shí)間間隔內(nèi)的上網(wǎng)日志記錄;
27、根據(jù)所述url特征向量與所述各個(gè)邊緣節(jié)點(diǎn)的上網(wǎng)日志記錄分別進(jìn)行計(jì)算,得到各個(gè)邊緣節(jié)點(diǎn)分別對(duì)應(yīng)的第三目標(biāo)交集;
28、分別確定所述第三目標(biāo)交集內(nèi)每條上網(wǎng)日志url記錄對(duì)應(yīng)的上網(wǎng)用戶,并根據(jù)所述第三目標(biāo)交集與所述第三目標(biāo)交集內(nèi)的上網(wǎng)日志url記錄對(duì)應(yīng)的上網(wǎng)用戶生成所述預(yù)設(shè)訓(xùn)練數(shù)據(jù)。
29、根據(jù)本公開的第二方面,提供了一種用戶畫像模型的訓(xùn)練裝置,包括:
30、第一獲取單元,用于分別獲取各邊緣節(jié)點(diǎn)中的各目標(biāo)用戶的上網(wǎng)日志url記錄及用戶信息;
31、第一計(jì)算單元,用于根據(jù)各所述目標(biāo)用戶的上網(wǎng)日志url記錄,計(jì)算url特征向量;
32、生成單元,用于根據(jù)各所述目標(biāo)用戶的用戶信息,生成共有屬性特征向量及特有特征向量;
33、第二計(jì)算單元,用于根據(jù)預(yù)設(shè)算法及所述url特征向量、共有屬性特征向量、特有特征向量以及每個(gè)特征向量對(duì)應(yīng)的權(quán)重系數(shù),計(jì)算模型輸入特征向量;
34、訓(xùn)練單元,用于根據(jù)所述模型輸入特征向量與訓(xùn)練用畫像樣本數(shù)據(jù)對(duì)預(yù)設(shè)用戶畫像模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的預(yù)設(shè)畫像模型。
35、可選的,所述裝置還包括:
36、生成單元,還用于在第一獲取單元分別獲取各邊緣節(jié)點(diǎn)中的各目標(biāo)用戶的上網(wǎng)日志url記錄及用戶信息之后,根據(jù)每個(gè)邊緣節(jié)點(diǎn)中每個(gè)目標(biāo)用戶的上網(wǎng)日志url記錄,分別生成每個(gè)目標(biāo)用戶的上網(wǎng)日志url記錄集合;
37、生成單元,還用于根據(jù)每個(gè)邊緣節(jié)點(diǎn)中的每個(gè)所述目標(biāo)用戶的用戶信息,生成每個(gè)邊緣節(jié)點(diǎn)的用戶屬性集合。
38、可選的,所述第一計(jì)算單元還用于:
39、根據(jù)各所述目標(biāo)用戶的上網(wǎng)日志url記錄集合,計(jì)算每個(gè)邊緣節(jié)點(diǎn)的上網(wǎng)日志url記錄集合的第一目標(biāo)交集;
40、將所述第一目標(biāo)交集內(nèi)的每條url記錄按照各自的標(biāo)簽關(guān)鍵字進(jìn)行標(biāo)注,并將具有相同標(biāo)簽的url記錄置于同一分組內(nèi),得到url特征向量;其中,所述url特征向量中包含全部所述url分組。
41、可選的,所述生成單元還用于:
42、根據(jù)所述每個(gè)邊緣節(jié)點(diǎn)的用戶屬性,計(jì)算所述每個(gè)邊緣節(jié)點(diǎn)的用戶屬性的交集,得到共有屬性特征向量;
43、根據(jù)所述第二目標(biāo)交集,分別計(jì)算每個(gè)邊緣節(jié)點(diǎn)的用戶屬性的差集,得到每個(gè)邊緣節(jié)點(diǎn)的特有屬性特征向量。
44、可選的,所述第二計(jì)算單元還用于:
45、根據(jù)預(yù)設(shè)算法及所述url特征向量、第一權(quán)重系數(shù)、共有屬性特征向量、第二權(quán)重系數(shù)、特有特征向量、第三權(quán)重系數(shù),計(jì)算模型輸入特征向量。
46、可選的,所述裝置還包括:
47、第二獲取單元,用于在第二計(jì)算單元根據(jù)預(yù)設(shè)算法及所述url特征向量、第一權(quán)重系數(shù)、共有屬性特征向量、第二權(quán)重系數(shù)、特有特征向量、第三權(quán)重系數(shù),計(jì)算模型輸入特征向量之前,獲取初始第一權(quán)重系數(shù)、初始第二權(quán)重系數(shù)及初始第三權(quán)重系數(shù);
48、迭代計(jì)算單元,用于基于梯度下降法及預(yù)設(shè)迭代次數(shù),分別對(duì)所述初始第一權(quán)重系數(shù)、初始第二權(quán)重系數(shù)及初始第三權(quán)重系數(shù)進(jìn)行迭代減弱;
49、迭代計(jì)算單元,還用于分別根據(jù)各個(gè)邊緣節(jié)點(diǎn)對(duì)應(yīng)的預(yù)設(shè)訓(xùn)練數(shù)據(jù)及預(yù)設(shè)迭代算法,對(duì)迭代計(jì)算后的所述初始第一權(quán)重系數(shù)、初始第二權(quán)重系數(shù)及初始第三權(quán)重系數(shù)進(jìn)行迭代增強(qiáng),得到各個(gè)邊緣節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練好的初始第一權(quán)重系數(shù)、初始第二權(quán)重系數(shù)及初始第三權(quán)重系數(shù);
50、匯總單元,用于根據(jù)各個(gè)邊緣節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練好的初始第一權(quán)重系數(shù)、初始第二權(quán)重系數(shù)及初始第三權(quán)重系數(shù)進(jìn)行匯總,得到第一權(quán)重系數(shù)、第二權(quán)重系數(shù)及第三權(quán)重系數(shù);
51、訓(xùn)練單元,還用于重復(fù)上述訓(xùn)練過(guò)程,直至第一權(quán)重系數(shù)、第二權(quán)重系數(shù)及第三權(quán)重系數(shù)都滿足預(yù)設(shè)收斂條件后,停止訓(xùn)練,得到訓(xùn)練好的第一權(quán)重系數(shù)、第二權(quán)重系數(shù)及第三權(quán)重系數(shù)。
52、可選的,所述裝置還包括:
53、獲取單元,用于在迭代計(jì)算單元根據(jù)預(yù)設(shè)訓(xùn)練數(shù)據(jù)及預(yù)設(shè)迭代算法,對(duì)迭代計(jì)算后的所述第一權(quán)重系數(shù)、初始第二權(quán)重系數(shù)及初始第三權(quán)重系數(shù)進(jìn)行迭代增強(qiáng)之前,獲取各個(gè)邊緣節(jié)點(diǎn)的預(yù)設(shè)時(shí)間間隔內(nèi)的上網(wǎng)日志記錄;
54、第三計(jì)算單元,用于根據(jù)所述url特征向量與所述各個(gè)邊緣節(jié)點(diǎn)的上網(wǎng)日志記錄分別進(jìn)行計(jì)算,得到各個(gè)邊緣節(jié)點(diǎn)分別對(duì)應(yīng)的第三目標(biāo)交集;
55、確定單元,用于分別確定所述第三目標(biāo)交集內(nèi)每條上網(wǎng)日志url記錄對(duì)應(yīng)的上網(wǎng)用戶,并根據(jù)所述第三目標(biāo)交集與所述第三目標(biāo)交集內(nèi)的上網(wǎng)日志url記錄對(duì)應(yīng)的上網(wǎng)用戶生成所述預(yù)設(shè)訓(xùn)練數(shù)據(jù)。
56、根據(jù)本公開的第三方面,提供了一種電子設(shè)備,包括:
57、至少一個(gè)處理器;以及
58、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,
59、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行前述第一方面所述的方法。
60、根據(jù)本公開的第四方面,提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行前述第一方面所述的方法。
61、根據(jù)本公開的第五方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)如前述第一方面所述的方法。
62、本公開提供的用戶畫像模型的訓(xùn)練方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì),主要技術(shù)方案包括:分別獲取各邊緣節(jié)點(diǎn)中的各目標(biāo)用戶的上網(wǎng)日志url記錄及用戶信息;
63、根據(jù)各所述目標(biāo)用戶的上網(wǎng)日志url記錄,計(jì)算url特征向量;根據(jù)各所述目標(biāo)用戶的用戶信息,生成共有屬性特征向量及特有特征向量;根據(jù)預(yù)設(shè)算法及所述url特征向量、共有屬性特征向量及特有特征向量,計(jì)算模型輸入特征向量;根據(jù)所述模型輸入特征向量與訓(xùn)練用畫像樣本數(shù)據(jù)對(duì)預(yù)設(shè)用戶畫像模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的預(yù)設(shè)畫像模型。與相關(guān)技術(shù)相比,本技術(shù)實(shí)施例通過(guò)根據(jù)各個(gè)邊緣節(jié)點(diǎn)中的數(shù)據(jù),進(jìn)行計(jì)算得到特征向量值后,根據(jù)各個(gè)特征向量值的權(quán)重系數(shù)計(jì)算最終的輸入特征向量;通過(guò)預(yù)設(shè)的權(quán)重系數(shù)確定各個(gè)特征向量值在最終的輸入特征向量的占比,而不是通過(guò)各個(gè)邊緣節(jié)點(diǎn)的數(shù)據(jù)量進(jìn)行確定,使數(shù)據(jù)量較少的邊緣節(jié)點(diǎn)的地域特征在輸入特征向量中也能夠保留,使得預(yù)設(shè)用戶畫像模型使用輸入特征向量進(jìn)行用戶畫像時(shí)能更好地區(qū)分不同地域、不同用戶群體的特征,避免數(shù)據(jù)量少的邊緣節(jié)點(diǎn)的地域特征被弱化。
64、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本技術(shù)的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本技術(shù)的范圍。本技術(shù)的其它特征將通過(guò)以下的說(shuō)明書而變得容易理解。