本申請涉及數(shù)據(jù)處理,具體涉及一種短信管理策略生成方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、短信被用于日常溝通、商業(yè)推廣、消息通知等各方面。然而,短信也被不法分子用來發(fā)布違規(guī)信息,給廣大用戶帶來困擾,甚至導(dǎo)致用戶財產(chǎn)損失。因此,對短信內(nèi)容進(jìn)行分析,識別其中的垃圾短信,就顯得十分必要?,F(xiàn)有的短信內(nèi)容分析技術(shù)主要有:1.短信文本分類技術(shù):可用人工智能模型等對短信進(jìn)行分類。此類模型為監(jiān)督模型,利用訓(xùn)練好的模型,提取當(dāng)前短信的特征,將其分類到所屬的類別中。2.短信文本聚類技術(shù):文本聚類無監(jiān)督地將大量短信文本進(jìn)行相似度比較,并將相似度高的短信文本聚到同一類別。文本聚類算法適用于處理大數(shù)據(jù),以及分析類別較多、不確定性高的文本。3.關(guān)鍵詞組合策略分析:關(guān)鍵詞組合策略由經(jīng)驗豐富的策略專家制定,蘊含了識別垃圾短信的經(jīng)驗知識。文本分類技術(shù)適用于分類特征明顯的文本,然而,短信文本內(nèi)容較短,特征稀疏,難以取得較好的分類效果。而且,垃圾短信文本特征經(jīng)常衍變,出現(xiàn)新的垃圾短信內(nèi)容,短信文本特征的改變導(dǎo)致分類效果變差。文本聚類技術(shù)適用于線下分析大量的短信文本。然而,變體垃圾短信中存在變化多樣的關(guān)鍵詞變體,在聚類時,可能將本屬于同一類的垃圾短信聚到不同類別。關(guān)鍵詞組合策略,利用“與”“或”邏輯匹配短信中出現(xiàn)的關(guān)鍵詞,識別垃圾短信。然而,人工智能時代,不法分子利用自動化手段生成不良關(guān)鍵詞變體組合多、變化快,人工難以及時發(fā)現(xiàn)新型變體詞或替代詞并配置到策略,導(dǎo)致漏攔包含新型變體的短信。由此,導(dǎo)致當(dāng)前進(jìn)行垃圾短信攔截時的準(zhǔn)確性低下。
技術(shù)實現(xiàn)思路
1、本申請實施例提供一種短信管理策略生成方法、裝置、電子設(shè)備及存儲介質(zhì),用以解決當(dāng)前進(jìn)行垃圾短信攔截時的準(zhǔn)確性低下的問題。
2、第一方面,本申請實施例提供一種短信管理策略生成方法,包括:
3、獲取待處理短信;
4、基于所述待處理短信進(jìn)行字符子串提取,得到子串集;
5、基于所述子串集與關(guān)鍵詞知識圖譜進(jìn)行關(guān)鍵詞匹配,得到目標(biāo)關(guān)鍵詞;所述關(guān)鍵詞知識圖譜是基于預(yù)設(shè)關(guān)鍵詞及其變體、引申、替代的關(guān)聯(lián)詞構(gòu)建的;
6、基于所述目標(biāo)關(guān)鍵詞與所述關(guān)鍵詞知識圖譜確定短信攔截策略,以基于所述短信攔截策略進(jìn)行短信攔截。
7、在一個實施例中,所述基于所述子串集與關(guān)鍵詞知識圖譜進(jìn)行關(guān)鍵詞匹配,得到目標(biāo)關(guān)鍵詞,包括:
8、獲取關(guān)鍵詞知識圖譜;
9、在所述關(guān)鍵詞知識圖譜中,對所述子串集中的字符子串進(jìn)行變體字符匹配,得到第一候選關(guān)鍵詞;
10、若所述變體字符匹配中存在匹配失敗的至少一個目標(biāo)字符子串,則基于各所述目標(biāo)字符子串進(jìn)行字符的相似度匹配,得到第二候選關(guān)鍵詞;
11、基于所述第一候選關(guān)鍵詞,或所述第一候選關(guān)鍵詞與所述第二候選關(guān)鍵詞,確定至少一個初始關(guān)鍵詞;
12、基于各所述初始關(guān)鍵詞進(jìn)行關(guān)鍵詞匹配,得到目標(biāo)關(guān)鍵詞。
13、在一個實施例中,所述基于各所述目標(biāo)字符子串進(jìn)行字符的相似度匹配,得到第二候選關(guān)鍵詞,包括:
14、對各所述目標(biāo)字符子串進(jìn)行字符生僻度檢測,得到字符生僻度信息;
15、基于所述字符生僻度信息確定生僻子串;
16、基于所述生僻子串進(jìn)行字符的相似度匹配,得到第二候選關(guān)鍵詞。
17、在一個實施例中,所述基于所述生僻子串進(jìn)行字符的相似度匹配,得到第二候選關(guān)鍵詞,包括:
18、基于關(guān)鍵詞知識圖譜構(gòu)建關(guān)鍵詞的拼音和筆順序列字典;
19、基于所述拼音和筆順序列字典,對所述生僻子串進(jìn)行同音與形近匹配,得到第二候選關(guān)鍵詞。
20、在一個實施例中,所述基于所述待處理短信進(jìn)行字符子串提取,得到子串集,包括:
21、對所述待處理短信進(jìn)行無效字符清理,得到目標(biāo)字符串;所述無效字符包括標(biāo)點符號、英文符號、表情符號中的至少一項;
22、對所述目標(biāo)字符串進(jìn)行字符切割,由切割形成的各字符子串形成子串集。
23、在一個實施例中,所述基于各所述初始關(guān)鍵詞進(jìn)行關(guān)鍵詞匹配,得到目標(biāo)關(guān)鍵詞,包括:
24、確定待處理短信對應(yīng)的目標(biāo)字符串中的各字符在所述目標(biāo)字符串中的字符位置信息;
25、確定所述初始關(guān)鍵詞在所述目標(biāo)字符串中的起止位置信息;
26、基于各所述初始關(guān)鍵詞及其起止位置信息、所述目標(biāo)字符串及其字符位置信息,進(jìn)行全局最佳詞語組合檢測,得到目標(biāo)關(guān)鍵詞。
27、在一個實施例中,在基于所述子串集與關(guān)鍵詞知識圖譜進(jìn)行關(guān)鍵詞匹配,得到目標(biāo)關(guān)鍵詞之后,還包括:
28、將所述目標(biāo)關(guān)鍵詞擴(kuò)充至所述關(guān)鍵詞知識圖譜。
29、第二方面,本申請實施例提供一種短信管理策略生成裝置,包括:
30、獲取模塊,用于獲取待處理短信;
31、提取模塊,用于基于所述待處理短信進(jìn)行字符子串提取,得到子串集;
32、匹配模塊,用于基于所述子串集與關(guān)鍵詞知識圖譜進(jìn)行關(guān)鍵詞匹配,得到目標(biāo)關(guān)鍵詞;所述關(guān)鍵詞知識圖譜是基于預(yù)設(shè)關(guān)鍵詞及其變體、引申、替代的關(guān)聯(lián)詞構(gòu)建的;
33、確定模塊,用于基于所述目標(biāo)關(guān)鍵詞與所述關(guān)鍵詞知識圖譜確定短信攔截策略,以基于所述短信攔截策略進(jìn)行短信攔截。
34、第三方面,本申請實施例提供一種電子設(shè)備,包括處理器和存儲有計算機(jī)程序的存儲器,所述處理器執(zhí)行所述程序時實現(xiàn)第一方面所述的短信管理策略生成方法。
35、第四方面,本申請實施例提供一種存儲介質(zhì),所述存儲介質(zhì)為計算機(jī)可讀存儲介質(zhì),包括計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)第一方面所述的短信管理策略生成方法。
36、本申請實施例提供的短信管理策略生成方法、裝置、電子設(shè)備及存儲介質(zhì),通過由預(yù)設(shè)關(guān)鍵詞及其變體、引申、替代的關(guān)聯(lián)詞構(gòu)建的關(guān)鍵詞知識圖譜,結(jié)合根據(jù)待處理短信進(jìn)行字符子串提取得到的子串集進(jìn)行關(guān)鍵詞匹配,可以快速、準(zhǔn)確地識別出待處理短信中,由關(guān)鍵詞進(jìn)行變體、引申或替代形成的新的關(guān)鍵詞,進(jìn)而可以根據(jù)匹配得到的目標(biāo)關(guān)鍵詞結(jié)合關(guān)鍵詞知識圖譜,快速、準(zhǔn)確地確定出短信攔截策略,便于相關(guān)人員參考短信攔截策略進(jìn)行垃圾短信攔截,因此可以提高垃圾短信攔截的準(zhǔn)確性。
1.一種短信管理策略生成方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的短信管理策略生成方法,其特征在于,所述基于所述子串集與關(guān)鍵詞知識圖譜進(jìn)行關(guān)鍵詞匹配,得到目標(biāo)關(guān)鍵詞,包括:
3.根據(jù)權(quán)利要求2所述的短信管理策略生成方法,其特征在于,所述基于各所述目標(biāo)字符子串進(jìn)行字符的相似度匹配,得到第二候選關(guān)鍵詞,包括:
4.根據(jù)權(quán)利要求3所述的短信管理策略生成方法,其特征在于,所述基于所述生僻子串進(jìn)行字符的相似度匹配,得到第二候選關(guān)鍵詞,包括:
5.根據(jù)權(quán)利要求2所述的短信管理策略生成方法,其特征在于,所述基于所述待處理短信進(jìn)行字符子串提取,得到子串集,包括:
6.根據(jù)權(quán)利要求5所述的短信管理策略生成方法,其特征在于,所述基于各所述初始關(guān)鍵詞進(jìn)行關(guān)鍵詞匹配,得到目標(biāo)關(guān)鍵詞,包括:
7.根據(jù)權(quán)利要求1-6任一項所述的短信管理策略生成方法,其特征在于,在基于所述子串集與關(guān)鍵詞知識圖譜進(jìn)行關(guān)鍵詞匹配,得到目標(biāo)關(guān)鍵詞之后,還包括:
8.一種短信管理策略生成裝置,其特征在于,包括:
9.一種電子設(shè)備,包括處理器和存儲有計算機(jī)程序的存儲器,其特征在于,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)權(quán)利要求1至7任一項所述的短信管理策略生成方法。
10.一種存儲介質(zhì),所述存儲介質(zhì)為計算機(jī)可讀存儲介質(zhì),包括計算機(jī)程序,其特征在于,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7任一項所述的短信管理策略生成方法。