本技術(shù)涉及數(shù)據(jù)處理,具體涉及一種投訴預(yù)測(cè)模型建立方法及投訴預(yù)測(cè)方法。
背景技術(shù):
1、隨著5g移動(dòng)電話用戶的增長(zhǎng),to?c和to?b應(yīng)用進(jìn)入爆發(fā)階段,電信業(yè)進(jìn)入全業(yè)務(wù)運(yùn)營(yíng)時(shí)代。與此同時(shí),三大運(yùn)營(yíng)商通信服務(wù)同質(zhì)化趨勢(shì)明顯,如網(wǎng)絡(luò)類型、服務(wù)與產(chǎn)品類別、用戶結(jié)構(gòu)。在攜號(hào)轉(zhuǎn)網(wǎng)全面落實(shí)與用戶新增飽和的市場(chǎng)環(huán)境下,提高用戶黏性成為提升運(yùn)營(yíng)商市場(chǎng)競(jìng)爭(zhēng)力之根本,而提升用戶業(yè)務(wù)感知是增強(qiáng)用戶黏性的重要手段,運(yùn)營(yíng)商對(duì)用戶感知的最重要并且最直接的數(shù)據(jù)收集方式即是用戶投訴。
2、傳統(tǒng)的投訴處理方式是用戶發(fā)起投訴后再進(jìn)行安撫與補(bǔ)償,以期消除用戶不滿,提升用戶滿意度。但這種投訴已發(fā)生后進(jìn)行的投訴管理對(duì)用戶的滿意度已實(shí)際產(chǎn)生影響,收效較低,為挽回用戶滿意度的資源投入與回報(bào)比較低。
3、因此,如何捕捉潛在投訴用戶成為亟待解決的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種投訴預(yù)測(cè)模型建立方法及投訴預(yù)測(cè)方法,用以解決現(xiàn)有技術(shù)中挽回式的投訴處理方式收效較低的技術(shù)問(wèn)題。
2、第一方面,本發(fā)明提供一種投訴預(yù)測(cè)模型建立方法,包括:
3、使用預(yù)置聚類算法,對(duì)投訴數(shù)據(jù)進(jìn)行聚類,得到聚類結(jié)果,所述投訴數(shù)據(jù)是一段時(shí)間內(nèi)所有投訴用戶的投訴業(yè)務(wù)相關(guān)數(shù)據(jù),所述聚類結(jié)果包括多個(gè)類簇,所述多個(gè)類簇中的每一個(gè)類簇表征一種投訴用戶類型;
4、基于所述聚類結(jié)果,確定多個(gè)投訴特征;
5、基于所述投訴數(shù)據(jù),對(duì)隨機(jī)森林模型進(jìn)行訓(xùn)練,基于訓(xùn)練結(jié)果確定所述多個(gè)投訴特征中各投訴特征的權(quán)重;
6、基于各所述投訴特征和各所述投訴特征的權(quán)重,建立投訴預(yù)測(cè)模型。
7、根據(jù)本發(fā)明提供的一種投訴預(yù)測(cè)模型建立方法,所述投訴業(yè)務(wù)相關(guān)數(shù)據(jù)包括多個(gè)特征的特征數(shù)據(jù),所述基于所述聚類結(jié)果,確定多個(gè)投訴特征,包括:
8、對(duì)所述聚類結(jié)果中的每一個(gè)類簇,執(zhí)行特征篩選步驟,得到各所述類簇的特征篩選結(jié)果,各所述類簇的特征篩選結(jié)果組合構(gòu)成所述多個(gè)投訴特征;
9、其中,所述特征篩選步驟包括:
10、對(duì)于所述類簇中的每一個(gè)特征,基于所述特征的類特征均值和所述特征的樣本特征均值,確定所述特征的變動(dòng)值,所述類特征均值是所述類簇中所述特征的均值,所述樣本特征均值是所述投訴數(shù)據(jù)中所述特征的均值,所述變動(dòng)值表征所述類特征均值相比于所述樣本特征均值的變化程度;
11、篩選出所述變動(dòng)值的絕對(duì)值大于或等于預(yù)設(shè)閾值的特征,得到所述類簇的特征篩選結(jié)果。
12、根據(jù)本發(fā)明提供的一種投訴預(yù)測(cè)模型建立方法,所述基于所述特征的類特征均值和所述特征的樣本特征均值,確定所述特征的變動(dòng)值,包括:
13、基于特征差值和所述樣本特征均值的比值,確定所述特征的變動(dòng)值,其中,所述特征差值是所述類特征均值和所述樣本特征均值之差。
14、根據(jù)本發(fā)明提供的一種投訴預(yù)測(cè)模型建立方法,所述基于所述投訴數(shù)據(jù),對(duì)隨機(jī)森林模型進(jìn)行訓(xùn)練,基于訓(xùn)練結(jié)果確定所述多個(gè)投訴特征中各投訴特征的權(quán)重,包括:
15、對(duì)所述投訴數(shù)據(jù)進(jìn)行有放回隨機(jī)抽樣,得到第一抽樣數(shù)據(jù),所述第一抽樣數(shù)據(jù)中各類型的投訴用戶的分布與所述聚類結(jié)果中各類型投訴用戶的分布相同;
16、基于預(yù)設(shè)抽樣比例,從未投訴用戶中進(jìn)行隨機(jī)抽樣,得到第二抽樣數(shù)據(jù),所述預(yù)設(shè)抽樣比例是預(yù)設(shè)的投訴用戶與未投訴用戶的比;
17、將所述第一抽樣數(shù)據(jù)和所述第二抽樣數(shù)據(jù)作為一組訓(xùn)練樣本,獲取多組訓(xùn)練樣本;
18、基于所述多組訓(xùn)練樣本,對(duì)隨機(jī)森林模型進(jìn)行訓(xùn)練,基于訓(xùn)練結(jié)果確定所述多個(gè)投訴特征中各投訴特征的權(quán)重。
19、第二方面,本發(fā)明提供一種投訴預(yù)測(cè)方法,包括:
20、對(duì)待預(yù)測(cè)語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文本數(shù)據(jù);
21、對(duì)所述文本數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理文本數(shù)據(jù);
22、將所述預(yù)處理文本數(shù)據(jù)輸入bert模型的transformer網(wǎng)絡(luò),得到所述transformer網(wǎng)絡(luò)輸出的編碼向量;
23、將所述編碼向量輸入至多分類網(wǎng)絡(luò)模型,得到所述多分類網(wǎng)絡(luò)模型輸出的分類結(jié)果,所述分類結(jié)果包括各投訴特征的得分;
24、基于所述分類結(jié)果和投訴預(yù)測(cè)模型,確定所述待預(yù)測(cè)語(yǔ)音的投訴得分,所述投訴預(yù)測(cè)模型是根據(jù)第一方面所述的任一種投訴預(yù)測(cè)模型建立方法建立得到的。
25、第三方面,本發(fā)明還提供一種投訴預(yù)測(cè)模型建立裝置,包括:
26、數(shù)據(jù)聚類模塊,用于:使用預(yù)置聚類算法,對(duì)投訴數(shù)據(jù)進(jìn)行聚類,得到聚類結(jié)果,所述投訴數(shù)據(jù)是一段時(shí)間內(nèi)所有投訴用戶的投訴業(yè)務(wù)相關(guān)數(shù)據(jù),所述聚類結(jié)果包括多個(gè)類簇,所述多個(gè)類簇中的每一個(gè)類簇表征一種投訴用戶類型;
27、特征確定模塊,用于:基于所述聚類結(jié)果,確定多個(gè)投訴特征;
28、權(quán)重確定模塊,用于:基于所述投訴數(shù)據(jù),對(duì)隨機(jī)森林模型進(jìn)行訓(xùn)練,基于訓(xùn)練結(jié)果確定所述多個(gè)投訴特征中各投訴特征的權(quán)重;
29、模型建立模塊,用于:基于各所述投訴特征和各所述投訴特征的權(quán)重,建立投訴預(yù)測(cè)模型。
30、第四方面,本發(fā)明還提供一種投訴預(yù)測(cè)裝置,包括:
31、語(yǔ)音識(shí)別模塊,用于:對(duì)待預(yù)測(cè)語(yǔ)音進(jìn)行識(shí)別,得到對(duì)應(yīng)的文本數(shù)據(jù);
32、預(yù)處理模塊,用于:對(duì)所述文本數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理文本數(shù)據(jù);
33、編碼模塊,用于:將所述預(yù)處理文本數(shù)據(jù)輸入bert模型的transformer網(wǎng)絡(luò),得到所述transformer網(wǎng)絡(luò)輸出的編碼向量;
34、多分類模塊,用于:將所述編碼向量輸入至多分類網(wǎng)絡(luò)模型,得到所述多分類網(wǎng)絡(luò)模型輸出的分類結(jié)果,所述分類結(jié)果包括各投訴特征的得分;
35、投訴預(yù)測(cè)模塊,用于:基于所述分類結(jié)果和投訴預(yù)測(cè)模型,確定所述待預(yù)測(cè)語(yǔ)音的投訴得分,所述投訴預(yù)測(cè)模型是根據(jù)第一方面所述的任一種投訴預(yù)測(cè)模型建立方法建立得到的。
36、第五方面,本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如第一方面所述投訴預(yù)測(cè)模型建立方法,或者實(shí)現(xiàn)如第二方面所述投訴預(yù)測(cè)方法。
37、第六方面,本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述投訴預(yù)測(cè)模型建立方法,或者實(shí)現(xiàn)如第二方面所述投訴預(yù)測(cè)方法。
38、第七方面,本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述投訴預(yù)測(cè)模型建立方法,或者實(shí)現(xiàn)如第二方面所述投訴預(yù)測(cè)方法。
39、本發(fā)明提供的投訴預(yù)測(cè)模型建立方法,使用預(yù)置聚類算法,對(duì)投訴數(shù)據(jù)進(jìn)行聚類,得到聚類結(jié)果,通過(guò)聚類算法將投訴用戶劃分為多種類型;基于聚類結(jié)果,確定多個(gè)投訴特征,投訴數(shù)據(jù)中包含多種投訴業(yè)務(wù)相關(guān)的數(shù)據(jù),根據(jù)聚類結(jié)果挖掘規(guī)律,從中篩選出可以評(píng)價(jià)用戶是否有投訴傾向的特征數(shù)據(jù);基于所述投訴數(shù)據(jù),對(duì)隨機(jī)森林模型進(jìn)行訓(xùn)練,基于訓(xùn)練結(jié)果確定所述多個(gè)投訴特征中各投訴特征的權(quán)重,通過(guò)隨機(jī)森林模型提供特征重要性的評(píng)估,確定各投訴特征對(duì)投訴預(yù)測(cè)的影響大小;基于各所述投訴特征和各所述投訴特征的權(quán)重,建立投訴預(yù)測(cè)模型,使用該投訴預(yù)測(cè)模型能夠?qū)撛谕对V用戶進(jìn)行捕捉。綜上所述,本發(fā)明根據(jù)投訴數(shù)據(jù)的聚類結(jié)果,挖掘規(guī)律,篩選出投訴特征,并通過(guò)隨機(jī)森林模型實(shí)現(xiàn)對(duì)投訴特征的權(quán)重賦值,進(jìn)而根據(jù)投訴特征與其權(quán)重構(gòu)建投訴預(yù)測(cè)模型,解釋了用戶投訴特征與是否進(jìn)行投訴之間的關(guān)系,使用該投訴預(yù)測(cè)模型實(shí)現(xiàn)對(duì)潛在高風(fēng)險(xiǎn)投訴客戶的預(yù)測(cè),從而能夠?qū)崿F(xiàn)事前針對(duì)性維系,降低用戶投訴率。