本發(fā)明涉及計(jì)算機(jī),尤其涉及一種基于大數(shù)據(jù)的用戶行為分析和模型構(gòu)建方法及裝置。
背景技術(shù):
1、在當(dāng)今信息爆炸的時(shí)代,數(shù)據(jù)的海量性和復(fù)雜性給數(shù)據(jù)獲取的能力帶來了巨大挑戰(zhàn)。個(gè)體和組織往往淹沒在大量的數(shù)據(jù)中,難以快速地識(shí)別獲取到所需的數(shù)據(jù)。
2、為了應(yīng)對(duì)這一挑戰(zhàn),亟需一種基于大數(shù)據(jù)的用戶行為分析和模型構(gòu)建方法及裝置。通過大數(shù)據(jù)分析深入理解用戶行為,識(shí)別用戶的核心能力。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于大數(shù)據(jù)的用戶行為分析和模型構(gòu)建方法及裝置,能夠提高信息篩選效率,提高推薦質(zhì)量,實(shí)現(xiàn)個(gè)性化的推薦。
2、第一方面,本發(fā)明提供一種基于大數(shù)據(jù)的用戶行為分析和模型構(gòu)建方法,包括:
3、s1、收集用戶描述頁數(shù)據(jù)d1,包括用戶頭像數(shù)據(jù)d1-1、頁面數(shù)據(jù)d1-2、用戶描述頁的文本數(shù)據(jù)d1-3,提取用戶頭像特征向量d1';收集用戶的游戲數(shù)據(jù)d2,溝通數(shù)據(jù)d2-1、團(tuán)隊(duì)數(shù)據(jù)d2-2、創(chuàng)新數(shù)據(jù)d2-3、學(xué)習(xí)數(shù)據(jù)d2-4、決策數(shù)據(jù)d2-5,提取用戶的游戲特征向量d2';將d1'和d2'融合,構(gòu)建用戶-能力特征矩陣d3;采用隨機(jī)劃分、分層劃分或交叉驗(yàn)證將d3劃分為訓(xùn)練集和測(cè)試集;收集真實(shí)能力特征矩陣dt;
4、s2、對(duì)用戶-能力特征矩陣d3進(jìn)行位置編碼,保留序列信息;
5、s3、對(duì)位置編碼后的用戶-能力特征矩陣d3建立transformer、bert或gpt-3模型,最小化預(yù)測(cè)誤差,得到最優(yōu)的參數(shù);使用訓(xùn)練好的模型預(yù)測(cè)用戶-能力評(píng)分矩陣d5;
6、s4、利用真實(shí)能力特征矩陣dt,對(duì)協(xié)同過濾模型進(jìn)行訓(xùn)練,以優(yōu)化并提升用戶-能力評(píng)分矩陣d5的預(yù)測(cè)性能;
7、s5、使用dbscan或optics聚類算法對(duì)用戶-能力評(píng)分矩陣d5進(jìn)行聚類,用戶劃分為不同的簇;
8、s6、針對(duì)每個(gè)簇,構(gòu)建能力-能力網(wǎng)絡(luò)a,連接用戶-能力評(píng)分矩陣d5中評(píng)分相似的能力得到關(guān)聯(lián)網(wǎng)絡(luò)g;使用katz中心性或hits算法評(píng)估能力影響力;按影響力對(duì)能力排序,找到每個(gè)群體的核心能力,即簇能力;
9、s7、采用基于相似用戶的協(xié)同過濾算法,為目標(biāo)用戶推薦與目標(biāo)用戶已知能力相關(guān)的能力,既個(gè)性化能力;
10、s8、推薦簇能力和個(gè)性化能力。
11、本發(fā)明的方法有益效果為:不僅考慮了用戶的個(gè)人特征,還考慮了群體行為和關(guān)聯(lián)網(wǎng)絡(luò)。
12、可選的,所述步驟s1包括:
13、s11、收集用戶描述頁數(shù)據(jù)d1和用戶的游戲數(shù)據(jù)d2,其中,收集用戶描述頁數(shù)據(jù)d1,包括用戶頭像數(shù)據(jù)d1-1、頁面數(shù)據(jù)d1-2、用戶描述頁的文本數(shù)據(jù)d1-3;收集用戶的游戲數(shù)據(jù)d2,包括溝通數(shù)據(jù)d2-1、團(tuán)隊(duì)數(shù)據(jù)d2-2、創(chuàng)新數(shù)據(jù)d2-3、學(xué)習(xí)數(shù)據(jù)d2-4、決策數(shù)據(jù)d2-5;
14、s12、提取用戶描述頁特征d1'和用戶的游戲特征d2',融合d1'和d2',構(gòu)建用戶-能力特征矩陣d3;
15、s13、收集工作協(xié)商數(shù)據(jù)、團(tuán)隊(duì)項(xiàng)目數(shù)據(jù)、工作績(jī)效數(shù)據(jù)、學(xué)習(xí)數(shù)據(jù)、決策數(shù)據(jù),構(gòu)成真實(shí)能力特征矩陣dt,dt包含5項(xiàng)評(píng)分:溝通能力評(píng)分,從工作協(xié)商數(shù)據(jù)、會(huì)議記錄、工作電子郵件往來提??;團(tuán)隊(duì)協(xié)作能力評(píng)分,從團(tuán)隊(duì)項(xiàng)目數(shù)據(jù)、項(xiàng)目管理軟件、同事評(píng)價(jià)和團(tuán)隊(duì)成果中提??;創(chuàng)新能力評(píng)分,從工作績(jī)效數(shù)據(jù)、新策略實(shí)施的結(jié)果和創(chuàng)新提案提取;學(xué)習(xí)能力評(píng)分,培訓(xùn)記錄、新技能掌握情況和專業(yè)發(fā)展活動(dòng)中提??;決策能力評(píng)分,決策數(shù)據(jù)、項(xiàng)目結(jié)果中提??;評(píng)分采用標(biāo)準(zhǔn)化范圍,評(píng)分范圍為[0,1]或[-1,1]。
16、可選的,所述步驟s12包括:
17、s121、提取年齡和性別特征、頭像特征、語義特征為d1':提取年齡和性別特征d1-1';提取頭像特征d1-2',提取頭像個(gè)性化的風(fēng)格或偏好;提取語義特征d1-3',使用自然語言處理技術(shù)提取用戶頁面的語義特征,用戶對(duì)頭像的描述、評(píng)論;使用nrc?emotionlexicon或liwc,識(shí)別用戶文本中的情緒,專注、興奮或沮喪;用戶不同情緒下的游戲表現(xiàn);風(fēng)格特征和語義特征與用戶的個(gè)性和情感傾向相關(guān),幫助理解用戶的行為和決策過程;
18、s122、提取溝通特征、團(tuán)隊(duì)特征、創(chuàng)新特征、學(xué)習(xí)特征、決策特征作為d2':溝通特征d2-1',記錄用戶在游戲中與其他玩家的溝通頻率和時(shí)長(zhǎng)、響應(yīng)時(shí)間,溝通類型,如指令、請(qǐng)求、反饋;團(tuán)隊(duì)特征d2-2',收集用戶在團(tuán)隊(duì)游戲中的角色、參與度、貢獻(xiàn)度、以及與隊(duì)友的互助行為;創(chuàng)新特征d2-3',收集用戶在游戲中嘗試新策略的次數(shù)、多樣性以及這些策略的成功率;學(xué)習(xí)特征d2-4',統(tǒng)計(jì)游戲中用戶的學(xué)習(xí)和掌握新技能的速度,通關(guān)率、錯(cuò)誤率、得分、排名;決策特征d2-5',記錄用戶在解謎游戲中,用戶使用試錯(cuò)法或邏輯推理;在策略游戲中,用戶采納進(jìn)攻或防守;做出決策的時(shí)間和決策的有效率。
19、s123、將用戶描述頁特征d1'和用戶的游戲特征d2'融合,構(gòu)建用戶-能力特征矩陣d3,d3包括:溝通特征,提取與溝通頻率、溝通效率特征;團(tuán)隊(duì)特征,提取協(xié)作頻率、團(tuán)隊(duì)貢獻(xiàn)度特征;創(chuàng)新特征,提取用戶在游戲中嘗試新策略的頻率和成功率;學(xué)習(xí)特征,提取用戶在游戲中學(xué)習(xí)新技能的速度和效率特征;決策特征,提取用戶在游戲中做出決策的速度和效率;
20、用戶-能力特征矩陣d3的行表示用戶,列表示能力指標(biāo),每個(gè)元素表示用戶在對(duì)應(yīng)能力指標(biāo)下的特征值;對(duì)d3中的特征進(jìn)行歸一化處理,確保各個(gè)特征具有相同的尺度。去除異常值、缺失值、重復(fù)值:檢查數(shù)據(jù)的完整性和一致性,刪除不符合規(guī)范的數(shù)據(jù);將數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的度量單位和范圍,范圍為[0,1]或[-1,1]。
21、可選的,所述步驟s2包括:
22、對(duì)d3進(jìn)行位置編碼:
23、
24、
25、其中,pos為用戶在游戲中的位置索引,從0開始計(jì)數(shù);d_model:位置編碼的維度,與特征矩陣的維度相同;pe(pos,2i)為pos位置的2i維位置編碼值;pe(pos,2i+1)為pos位置的2i+1維位置編碼值。
26、假設(shè)用戶在游戲中完成了10個(gè)任務(wù),位置編碼的維度為10,那么第一個(gè)任務(wù)的位置編碼為:
27、
28、
29、
30、
31、以此類推,計(jì)算出所有任務(wù)的位置編碼。用戶在游戲中的位置可以用任務(wù)進(jìn)度來表示,用戶在游戲中的位置也可以用游戲時(shí)間來表示。d_model的設(shè)置需要根據(jù)游戲場(chǎng)景的復(fù)雜度來決定。一般來說,游戲場(chǎng)景越復(fù)雜,d_model的值越大。例如,對(duì)于有100個(gè)任務(wù)的大型游戲,d_model可設(shè)置為100。
32、可選的,所述步驟s3包括:
33、s31、使用transformer、bert或gpt-3深度學(xué)習(xí)模型的encoder部分,將位置編碼后的用戶-能力特征矩陣d3作為輸入,通過多層自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)用戶-能力特征之間的關(guān)系,得到encoder處理后的用戶-能力特征矩陣d4;
34、s32、使用深度學(xué)習(xí)模型的decoder部分,將d4和用戶的游戲特征矩陣d2'作為輸入,通過多層自注意力機(jī)制、編碼器-解碼器注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò),預(yù)測(cè)用戶每個(gè)能力的評(píng)分,得到預(yù)測(cè)的用戶-能力評(píng)分矩陣d5;
35、d5評(píng)分矩陣包括:
36、溝通能力評(píng)分:反映用戶在游戲中與其他玩家溝通交流的能力;
37、團(tuán)隊(duì)協(xié)作能力評(píng)分:顯示用戶在團(tuán)隊(duì)游戲中與其他玩家合作的能力;
38、創(chuàng)新能力評(píng)分:評(píng)估用戶在游戲中嘗試新策略和解決問題的能力;
39、學(xué)習(xí)能力評(píng)分:衡量用戶在游戲中學(xué)習(xí)新技能和解決問題的能力;
40、決策能力評(píng)分:反映用戶在游戲中做出決策的速度和效率;
41、s33、使用訓(xùn)練集訓(xùn)練模型,使用交叉熵?fù)p失函數(shù)作為優(yōu)化目標(biāo),使用adam優(yōu)化器進(jìn)行梯度下降;訓(xùn)練完成后,計(jì)算模型在測(cè)試集上的準(zhǔn)確率、召回率、f1值和auc值,評(píng)估模型性能;
42、s34、為了將預(yù)測(cè)的用戶-能力評(píng)分矩陣d5與真實(shí)能力特征矩陣dt進(jìn)行比較,需要對(duì)d5進(jìn)行圖像特征提取,并將其評(píng)分值限制在與dt相同的范圍內(nèi);使用sift、surf、hog或cnn圖像特征提取算法提取用戶-能力評(píng)分矩陣d5的圖像特征,將用戶-能力矩陣d5中的評(píng)分值限制在與dt相同的范圍內(nèi),如[0,1]或[-1,1];
43、計(jì)算d5與dt的相關(guān)系數(shù),評(píng)估兩者的相關(guān)性。使用pcc、scc或kcc評(píng)估d5與dt的相關(guān)性;如果相關(guān)系數(shù)pcc、scc和kcc值均大于0.5,則表明d5和dt具有較強(qiáng)的相關(guān)性,直接進(jìn)行對(duì)齊;如果pcc、scc和kcc值均小于0.5,則表明d5和dt之間存在較大差異,則需要對(duì)d5進(jìn)行縮放、偏移或歸一化,使其與dt的評(píng)分范圍和分布一致。
44、可選的,所述步驟s4包括:
45、采用準(zhǔn)確率、召回率、f1值、auc值評(píng)估d5與dt的匹配程度;設(shè)定參考閾值,準(zhǔn)確率大于0.9,召回率大于0.7,f1值大于0.75,auc值大于0.8,若任一指標(biāo)低于預(yù)設(shè)閾值,則需調(diào)整模型參數(shù),包括調(diào)整學(xué)習(xí)率、batch?size、隱藏層數(shù),重新訓(xùn)練模型,直到所有指標(biāo)均達(dá)到或超過預(yù)設(shè)閾值。
46、可選的,所述步驟s5中所述的包括:
47、s51、參數(shù)設(shè)置:設(shè)置dbscan或optics聚類算法的參數(shù)ε、minpts;ε是密度閾值,用于控制簇的密度;minpts是鄰域內(nèi)的最小數(shù)據(jù)點(diǎn)數(shù),用于判斷數(shù)據(jù)點(diǎn)的核心性;
48、s52、聚類:使用選擇的聚類算法對(duì)d5進(jìn)行聚類,將用戶劃分為不同的能力群體,每個(gè)簇代表一個(gè)能力群體,具有相似的能力特征;
49、s53、評(píng)估聚類結(jié)果:評(píng)估指標(biāo)為silhouette系數(shù)和calinski-harabasz指數(shù);使用compute_similarity函數(shù),根據(jù)d1'計(jì)算每個(gè)用戶與其所屬簇的相似度;使用余弦相似度或皮爾遜相關(guān)系數(shù)作為度量標(biāo)準(zhǔn);設(shè)置相似度閾值為0.4-0.6;對(duì)每個(gè)用戶,計(jì)算其與所有其他簇的平均相似度;使用1減去平均相似度,得到用戶與其他簇的異度;對(duì)每個(gè)用戶,計(jì)算silhouette系數(shù):
50、
51、a為用戶與其所屬簇的相似度;b為用戶與所有其他簇的平均相似度;計(jì)算calinski-harabasz指數(shù):
52、
53、x為用戶數(shù)據(jù);μ_i為簇i的平均值;k為簇的數(shù)量;n為用戶總數(shù);silhouette系數(shù)越接近1,calinski-harabasz指數(shù)越大,表示聚類效果越好;選擇最優(yōu)化silhouette系數(shù)和calinski-harabasz指數(shù)的簇?cái)?shù)量,將d5中的用戶進(jìn)行分組。
54、在實(shí)際應(yīng)用中,若將玩家分為以下幾個(gè)群體:
55、高手:團(tuán)隊(duì)合作能力強(qiáng),能夠有效地與其他玩家合作;
56、中等水平:團(tuán)隊(duì)合作能力一般,能夠在一定程度上與其他玩家合作;
57、新手:團(tuán)隊(duì)合作能力弱,需要其他玩家的幫助。
58、例如,為高手群體提供更具挑戰(zhàn)性的團(tuán)隊(duì)合作任務(wù),為中等水平群體提供團(tuán)隊(duì)合作技巧培訓(xùn),為新手群體提供團(tuán)隊(duì)合作基礎(chǔ)知識(shí)教育。
59、可選的,s6側(cè)重于能力-能力網(wǎng)絡(luò)的構(gòu)建和分析,目的是找到簇能力。所述步驟s6包括:
60、s61、使用compute_similarity函數(shù),根據(jù)d2'計(jì)算所有能力對(duì)之間的相似度;使用余弦相似度、jaccard相似度或皮爾遜相關(guān)系數(shù)作為度量標(biāo)準(zhǔn);設(shè)置相似度閾值為0.5-0.8;將相似度大于閾值的能力對(duì)連接起來,形成無向加權(quán)圖,即能力-能力網(wǎng)絡(luò)a;
61、s62、評(píng)估能力影響力:采用katz中心性或hits算法評(píng)估每個(gè)能力在能力-能力網(wǎng)絡(luò)a中的影響力。katz中心性得分=σ(衰減系數(shù)×鄰接矩陣)k×能力節(jié)點(diǎn),k為迭代次數(shù),衰減系數(shù)決定了連接的強(qiáng)度,鄰接矩陣表示能力之間的關(guān)系;hits算法計(jì)算每個(gè)能力的權(quán)威值和樞紐值,hit影響力得分=權(quán)威值系數(shù)×權(quán)威值+樞紐值系數(shù)×樞紐值,權(quán)威值衡量一個(gè)能力被其他能力指向的頻率,而樞紐值則反映了一個(gè)能力指向其他能力的頻率;
62、在實(shí)際應(yīng)用中,在團(tuán)隊(duì)合作能力群體中,如學(xué)習(xí)能力在網(wǎng)絡(luò)中的katz中心性得分和hits影響力得分都很高,學(xué)習(xí)能力在團(tuán)隊(duì)合作能力群體中具有重要的全局影響力,是該群體成員普遍需要具備的關(guān)鍵能力。
63、s63、識(shí)別簇能力:按影響力對(duì)排序,找到每個(gè)群體的核心,即簇能力。
64、s7側(cè)重于個(gè)性化能力的推薦,目的是根據(jù)目標(biāo)用戶的相似用戶和預(yù)測(cè)評(píng)分,推薦最適合其發(fā)展的能力。可選的,所述步驟s7包括:
65、s71、計(jì)算用戶相似度:使用compute_similarity函數(shù),根據(jù)用戶-能力評(píng)分矩陣d5計(jì)算目標(biāo)用戶與其他用戶的相似度,生成相似度向量;選擇余弦相似度、jaccard相似度或皮爾遜相關(guān)系數(shù)作為度量標(biāo)準(zhǔn);設(shè)定相似度閾值為0.75到0.95之間;
66、s72、預(yù)測(cè)評(píng)分:選擇目標(biāo)用戶所屬簇中的所有用戶,作為相似用戶集合;對(duì)于目標(biāo)用戶已接觸的能力,通過加權(quán)平均計(jì)算出其改進(jìn)評(píng)分b1;對(duì)于目標(biāo)用戶尚未接觸的能力,根據(jù)相似用戶集合中的評(píng)分,采用加權(quán)平均計(jì)算出其預(yù)測(cè)評(píng)分b2;
67、s73、將b1和b2進(jìn)行融合,得到目標(biāo)用戶對(duì)所有能力的綜合評(píng)分b,根據(jù)綜合評(píng)分b對(duì)能力進(jìn)行排序,推薦得分最高的能力為個(gè)性化能力。
68、可選的,所述步驟s8包括:
69、對(duì)于群體的新成員、用戶希望提升與群體共性相關(guān)的能力、群體的活躍成員,優(yōu)先推薦簇能力;對(duì)于沒有特定偏好的用戶,系統(tǒng)默認(rèn)推薦簇能力,以幫助他們快速找到適合自己的發(fā)展方向。
70、對(duì)于傾向發(fā)展個(gè)人技能或興趣的用戶,優(yōu)先推薦個(gè)性化能力。
71、第二方面,本發(fā)明還提供一種裝置,包括:
72、數(shù)據(jù)預(yù)處理模塊,用于清洗和格式化數(shù)據(jù);
73、特征工程模塊,用于選擇和轉(zhuǎn)換特征,以提高模型的預(yù)測(cè)性能;
74、相似度計(jì)算模塊,用于計(jì)算相似度;
75、協(xié)同過濾模塊,用于根據(jù)用戶間的相似性推薦能力;
76、評(píng)估模塊,用于計(jì)算模型的準(zhǔn)確率、召回率、f1值和auc值,評(píng)估模型的性能;
77、推薦模塊,用于向用戶推薦簇能力和個(gè)性化能力;
78、聚類模塊,用于對(duì)用戶-能力評(píng)分矩陣進(jìn)行聚類;
79、網(wǎng)絡(luò)構(gòu)建模塊,用于構(gòu)建能力之間的關(guān)聯(lián)網(wǎng)絡(luò),評(píng)估能力的影響力;
80、預(yù)測(cè)模塊,用于預(yù)測(cè)用戶對(duì)未接觸能力的評(píng)分;
81、網(wǎng)絡(luò)分析模塊,在能力-能力網(wǎng)絡(luò)中尋找相關(guān)能力。
82、關(guān)于第二方面的有益效果可以參見上述第一方面的描述。