一種短信行為的大數(shù)據(jù)采集與分析方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種短信行為的大數(shù)據(jù)采集與分析方法及系統(tǒng)。
【背景技術(shù)】
[0002]短信作為一種快捷、經(jīng)濟(jì)、有效的通信方式得到了廣泛的應(yīng)用,然而垃圾短信的不斷泛濫也造成了用戶的很大困擾。研制智能短信過濾的技術(shù)方案,為手機(jī)用戶建立起一個可靠、準(zhǔn)確、高效的短信管制過濾平臺具有重要的社會價值。
[0003]目前短信過濾的方式一般分為兩種,從技術(shù)上分,一種是基于關(guān)鍵詞,只要短信中包括的敏感詞匯超過一定的數(shù)目就被認(rèn)定為垃圾信息;另一種是基于短信內(nèi)容的過濾采用機(jī)器學(xué)習(xí)方法把短信自動分為正常短信和垃圾短信,目前用于短信自動分類的機(jī)器學(xué)習(xí)方法主要有樸素貝葉斯、SVM、KNN、人工神經(jīng)網(wǎng)絡(luò)算法等。
[0004]如申請?zhí)枮?201010618534.2的中國專利所公開的一種垃圾短信監(jiān)控與處理的系統(tǒng)、系統(tǒng)及方法,該垃圾短信監(jiān)控與處理的方法,設(shè)置基本關(guān)鍵詞規(guī)則、關(guān)鍵詞衍生序列及垃圾短信疑似度,該方法包括接收短信,采用所設(shè)置的基本關(guān)鍵詞規(guī)則對短信內(nèi)容進(jìn)行匹配,確定是否匹配成功,如果是,將該短信作為垃圾短信并刪除,如果否,采用所設(shè)置的關(guān)鍵詞衍生序列對該短信內(nèi)容疑似值范圍內(nèi),將該短信作為疑似垃圾短信,如果計算的垃圾短信疑似值大于等于設(shè)置的垃圾短信疑似度上范圍,將該短信作為垃圾短信,如果小雨等于設(shè)置的垃圾短信疑似度下范圍,將該短信作為非垃圾短信發(fā)送。該方法主要的是根據(jù)事先設(shè)置的關(guān)鍵詞進(jìn)行判斷短信是否為垃圾短信,雖然設(shè)置了疑似度范圍,但是實際情況中,垃圾短信不僅僅通過改變關(guān)鍵詞傳播,所以該方法攔截的垃圾短信范圍較小,僅依賴關(guān)鍵詞的判斷攔截短信可靠程度低。
[0005]又如申請?zhí)枮?201310018709.X的中國專利所公開的垃圾短信過濾方法及系統(tǒng),方法包括:獲取短消息:確定所述短消息的至少兩種特征信息的可疑度;根據(jù)所述至少兩種特征信息的可疑度以及每種所述特征信息對應(yīng)的權(quán)值,確定所述短消息的可疑度閥值;若所述短信息的所述可疑度閥值大于設(shè)定閥值,則對所述短信進(jìn)行過濾。該方法通過將短信與所設(shè)定的特征信息進(jìn)行比對,從而來對短信進(jìn)行過濾,但實際情況中垃圾短信的內(nèi)容多種多樣,所設(shè)定的特征信息有一定的局限性和滯后性,實用性較低,而且需經(jīng)過一系列的比對,工作效率不高。
【發(fā)明內(nèi)容】
[0006]為克服現(xiàn)有技術(shù)中存在的面對大量的短信業(yè)務(wù)時工作效率不高,且短信過濾可靠性程度低等問題,本發(fā)明提供了一種短信行為的大數(shù)據(jù)采集與分析方法及系統(tǒng)。
[0007]本發(fā)明所采取的技術(shù)方案是:
[0008]—種短信行為的大數(shù)據(jù)采集與分析方法,其特征在于:包括以下步驟:步驟1:集合所有短信的數(shù)據(jù)信息;步驟2:統(tǒng)計所有短信的行為特征并輸出;步驟3:根據(jù)步驟2的輸出結(jié)果判斷出最優(yōu)短信過濾結(jié)果;步驟4:根據(jù)步驟3的判斷結(jié)果進(jìn)行短信過濾。
[0009]在此基礎(chǔ)上,所述步驟I基于大數(shù)據(jù)平臺實現(xiàn),具體步驟如下:
[0010]步驟11:將操作數(shù)據(jù)進(jìn)行實時記錄,并將操作數(shù)據(jù)存儲至本地存儲器中;
[0011 ]步驟12:讀取本地存儲器中的操作數(shù)據(jù),并對操作數(shù)據(jù)進(jìn)行預(yù)處理;
[0012]步驟13:將預(yù)處理數(shù)據(jù)定時定量的遠(yuǎn)程發(fā)送至遠(yuǎn)程存儲器中;
[0013]步驟14:讀取遠(yuǎn)程存儲器中的預(yù)處理數(shù)據(jù),并按照短信的發(fā)送者和接收者對預(yù)處理數(shù)據(jù)進(jìn)行分類處理,再將分類處理獲得的分類數(shù)據(jù)存儲至面向大數(shù)據(jù)的數(shù)據(jù)庫;
[0014]步驟15:按照分類有序讀取數(shù)據(jù)庫中的分類數(shù)據(jù)。
[0015]在此基礎(chǔ)上,所述步驟12中的預(yù)處理包括剔除無效數(shù)據(jù)和整合重復(fù)數(shù)據(jù)。
[0016]在此基礎(chǔ)上,所述步驟2中短信行為特征為對應(yīng)的短信接收者的數(shù)量。
[0017]在此基礎(chǔ)上,所述步驟2:短信行為特征的提取基于Hadoop平臺和MapReduce函數(shù)完成,具體步驟如下:
[0018]步驟21:從采集到的數(shù)據(jù)中將短信的發(fā)送者和接收者列表提取作為輸入;
[0019]步驟22:通過Map函數(shù)并行的將短信的發(fā)送者和接收者記錄轉(zhuǎn)換成發(fā)送者和每個接收者一對一的發(fā)送關(guān)系;
[0020]步驟23:通過Reduce函數(shù)計算每個發(fā)送者對應(yīng)的短信接收者的個數(shù);
[0021 ]步驟24:輸出每個發(fā)送者對應(yīng)的短信接收者的個數(shù)。
[0022]在此基礎(chǔ)上,所述步驟3中的最優(yōu)短信過濾結(jié)果判斷策略包括,其中,M<N:
[0023]I)當(dāng)每個發(fā)送者對應(yīng)的短信接收者的個數(shù)2 N時,將該短信定為無效短信;
[0024]2)當(dāng)每個發(fā)送者對應(yīng)的短信接收者的個數(shù)< M時,將該短信定為有效短信;
[0025]3)M<當(dāng)每個發(fā)送者對應(yīng)的短信接收者的個數(shù) <圈寸,將該短信定為待定短信。
[0026]在此基礎(chǔ)上,所述步驟4中的過濾策略包括:
[0027]I)當(dāng)該短信為無效短信時,將短信直接刪除;
[0028]2)當(dāng)該短信為有效短信時,將短信發(fā)用給相應(yīng)接收者;
[0029]3)當(dāng)該短信為待定短信時,將短信儲存并告之接收者,接收者回復(fù)可查看,否則直接儲存并定期刪除。
[0030]在此基礎(chǔ)上,所述短信行為特征還包括短信回復(fù)率、發(fā)送成功率和平均發(fā)送短信的數(shù)量。
[0031]本發(fā)明的另一個目的是提供一種短信行為的大數(shù)據(jù)采集與分析方法的系統(tǒng),其創(chuàng)新點在于:包括信息采集部件、統(tǒng)計部件、判斷部件和執(zhí)行部件,所述信息采集部件和統(tǒng)計部件相連,所述統(tǒng)計部件和判斷部件相連,所述判斷部件和執(zhí)行部件相連,所述信息采集部件采集短信數(shù)據(jù)信息,所述統(tǒng)計部件提取信息采集部件提供的信息,并統(tǒng)計每個短信的行為特征信息,所述判斷部件獲取統(tǒng)計部件的統(tǒng)計結(jié)果,并給出判斷結(jié)果,所述執(zhí)行部件進(jìn)行短信過濾。
[0032]在此基礎(chǔ)上,所述執(zhí)行部件為云存儲管理系統(tǒng)。
[0033]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
[0034]1、本發(fā)明的數(shù)據(jù)采集基于大數(shù)據(jù)平臺,大數(shù)據(jù)是大量、高速、多變的信息,配合新型的處理方式促成了更強的決策能力、洞察力與最佳化處理,運用大數(shù)據(jù)平臺可以獲得更為深刻、全面的洞察能力,也提供了前所未有的空間與潛力。
[0035]2、本發(fā)明是基于Hadoop平臺和MapReduce函數(shù)進(jìn)完成的,可以快速地并行化過濾短息,這意味著本發(fā)明可以同時處理大量的短信,從而提高短信的過濾效率。Hadoop平臺能夠自動保存數(shù)據(jù)的多副本,并且能夠自動將失敗的任務(wù)重新分配,具有高容錯性,同時Hadoop平臺為分布式平臺具有高伸縮性。
[0036]3、本發(fā)明中短信過濾判斷策略的端點值可以調(diào)整,可以根據(jù)實際情況進(jìn)行適當(dāng)調(diào)整,能夠精確控制短信過濾的數(shù)量和質(zhì)量,且判斷策略簡單易懂,若出錯容易修復(fù),適應(yīng)性強,伸縮性好。
[0037]4、本發(fā)明可以同時提取多個短信的行為特征,并根據(jù)多個行為特征的判斷結(jié)果來進(jìn)行短信過濾,加強了短信過濾的可靠性;并且多個行為特征是并行提取的,也加快了短信過濾的速度,適用于處理大量短信業(yè)務(wù),提高了短信過濾的質(zhì)量。
[0038]5、本發(fā)明中短信過濾時可保存,并且可以根據(jù)用戶的需求進(jìn)行調(diào)用查看。查看的同時具有優(yōu)先級功能,可以根據(jù)重要、緊急和加急的不同緊急程度,進(jìn)行優(yōu)先調(diào)用查看,人性化程度高;另外還具備閱后即焚的查看模式,可以有效保護(hù)用戶的隱私問題。
[0039]6、本發(fā)明中執(zhí)行部件為云存儲管理系統(tǒng),云存儲管理系統(tǒng)能夠進(jìn)行海量的并行擴(kuò)容,對于應(yīng)用端開發(fā)十分便利,執(zhí)行機(jī)構(gòu)可以同時完成相應(yīng)計費采集、業(yè)務(wù)管理、網(wǎng)絡(luò)管理等功能,且云存儲管理系統(tǒng)負(fù)載均衡,也容易管理。
【附圖說明】
[0040]圖1是本發(fā)明中短信過濾方法的流程示意圖;
[0041]圖2是本發(fā)明中大數(shù)據(jù)平臺采集數(shù)據(jù)的流程示意圖
[0042]圖3是本發(fā)明中短信行為特征統(tǒng)計的流程示意圖;
[0043]圖4是本發(fā)明中短信過濾策略的流程示意圖;
[0044]圖5是本發(fā)明中短信過濾系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0045]以下結(jié)合附圖和實施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0046]如圖1所示,一種短信行為的大數(shù)據(jù)采集與分析方法,包括以下步驟:步驟1:集合所有短信的數(shù)據(jù)信息;步驟2:統(tǒng)計所有短信的行為特征并輸出;步驟3:根據(jù)步驟2的輸出結(jié)果判斷出最優(yōu)短信過濾結(jié)果;步驟4:根據(jù)步驟3的判斷結(jié)果進(jìn)行短信過濾。
[0047]其中步驟I基于大數(shù)據(jù)平臺實現(xiàn),如圖2所示,具體步驟如下:
[0048]步驟11:將操作數(shù)據(jù)進(jìn)行實時記錄,并將操作數(shù)據(jù)存儲至本地存儲器中;
[0049]步驟12:讀取本地存儲器中的操作數(shù)據(jù),并對操作數(shù)據(jù)進(jìn)行預(yù)處理,包括剔除無效數(shù)據(jù)和整合重復(fù)數(shù)據(jù)等;
[0050]步驟13:將預(yù)處理數(shù)據(jù)定時定量的遠(yuǎn)程發(fā)送至遠(yuǎn)程存儲器中;
[0051]步驟14:讀取遠(yuǎn)程存儲器中的預(yù)處理數(shù)據(jù),并按照短信的發(fā)送者和接收者對預(yù)處理數(shù)據(jù)進(jìn)行分類處理,再將分類處理獲得的分類數(shù)據(jù)存儲至面向大數(shù)據(jù)的數(shù)據(jù)庫;
[0052]步驟15:按照分類有序讀取數(shù)據(jù)庫中的分類數(shù)據(jù)。
[0053]其中,步驟2:短信行為特征的提取基于Hadoop平臺和MapReduce函數(shù)完成。使用Hadoop平臺和MapReduce函數(shù)可以快速地并行化過濾短息,這意味著本發(fā)明可以同時處理大量的短信,從而提高短信的過濾效率。Hadoop平臺能夠自動保存數(shù)據(jù)的多副本,并且能夠自動將失敗的任務(wù)重新分配,具有高容錯