本發(fā)明涉及門前場景聯(lián)動控制,尤其涉及多模態(tài)融合門前場景聯(lián)動控制方法、系統(tǒng)及存儲介質(zhì)。
背景技術(shù):
1、隨著智能家居生活不斷走向智能化,家庭場景中的智能家居設(shè)備不再是一個個單獨的個體,而是組成了以住宅為載體的一個個整體。隨著用戶認(rèn)知的發(fā)展和物聯(lián)網(wǎng)技術(shù)的進(jìn)步,用戶希望擁有更智能、更便捷的設(shè)備管控方式,通過對家居設(shè)備的集中管理和智能聯(lián)動,獲得更舒適、安全、節(jié)能的家庭生活。
2、在門前智能場景下,通常存在智能門鎖、智能門鈴以及攝像頭等智能設(shè)備,門前場景聯(lián)動控制是指通過條件觸發(fā),使多個智能設(shè)備的協(xié)同反映,實現(xiàn)智能設(shè)備之間聯(lián)動。
3、然而,在門前場景下,現(xiàn)有的聯(lián)動控制,主要依賴人臉、指紋等單一維度的特征進(jìn)行交互,例如基于人臉識別或指紋識別,令門鎖作出反應(yīng)的同時,照明燈亦開啟,實現(xiàn)門鎖與照明燈的聯(lián)動,存在控制邏輯的依據(jù)單一、不夠靈活的問題,更不能夠根據(jù)人物意圖進(jìn)行聯(lián)動控制。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供多模態(tài)融合門前場景聯(lián)動控制方法、系統(tǒng)及存儲介質(zhì),用以解決現(xiàn)有技術(shù)中控制邏輯依據(jù)單一,不能結(jié)合人物意圖進(jìn)行聯(lián)動控制的缺陷。
2、本發(fā)明提供多模態(tài)融合門前場景聯(lián)動控制方法,包括:
3、獲取多模態(tài)數(shù)據(jù),所述多模態(tài)數(shù)據(jù)至少兩種單維度數(shù)據(jù);
4、將所述多模態(tài)數(shù)據(jù)輸入至預(yù)設(shè)處理模型,獲取輸出的多模態(tài)融合特征向量,所述多模態(tài)融合特征向量表征身份和/或意圖;
5、根據(jù)所述多模態(tài)融合特征向量,從預(yù)設(shè)的聯(lián)動規(guī)則數(shù)據(jù)庫中檢索匹配對應(yīng)的聯(lián)動控制信息,所述聯(lián)動控制信息包括至少一條對受控終端的控制指令;
6、根據(jù)所述聯(lián)動控制信息,將各條所述控制指令發(fā)送向?qū)?yīng)的所述受控終端。
7、根據(jù)本發(fā)明提供的多模態(tài)融合門前場景聯(lián)動控制方法,所述將所述多模態(tài)數(shù)據(jù)輸入至預(yù)設(shè)處理模型,獲取輸出的多模態(tài)融合特征向量,包括:
8、對所述多模態(tài)數(shù)據(jù)進(jìn)行降噪處理以及降維處理,獲取多模態(tài)預(yù)處理數(shù)據(jù);
9、對所述多模態(tài)預(yù)處理數(shù)據(jù)進(jìn)行分類處理,獲取身份特征數(shù)據(jù)以及意圖特征數(shù)據(jù),所述身份特征數(shù)據(jù)包括人臉特征、體型輪廓特征、音頻特征以及服裝特征中的至少一種,所述意圖特征數(shù)據(jù)包括語音文本特征、動作特征、體型輪廓特征以及服裝特征中的至少一種;
10、將所述身份特征數(shù)據(jù)輸入至預(yù)設(shè)的第一特征級融合模型,獲取身份特征級融合向量,將所述意圖特征數(shù)據(jù)輸入至預(yù)設(shè)的第二特征級融合模型,獲取意圖特征級融合向量;
11、將所述身份特征級融合向量以及所述意圖特征級融合向量輸入至預(yù)設(shè)的決策級融合模型,獲取多模態(tài)融合特征向量。
12、根據(jù)本發(fā)明提供的多模態(tài)融合門前場景聯(lián)動控制方法,所述多模態(tài)數(shù)據(jù)包括語音數(shù)據(jù),在所述對所述多模態(tài)預(yù)處理數(shù)據(jù)進(jìn)行分類處理,獲取身份特征數(shù)據(jù)以及意圖特征數(shù)據(jù)之前,還包括:
13、從所述語音數(shù)據(jù)提取音頻特征,所述音頻特征表征個人的發(fā)音特性;
14、對所述語音數(shù)據(jù)進(jìn)行語音識別,獲取語義文本特征。
15、根據(jù)本發(fā)明提供的多模態(tài)融合門前場景聯(lián)動控制方法,所述將所述身份特征數(shù)據(jù)輸入至預(yù)設(shè)的第一特征級融合模型,獲取身份特征級融合向量,包括:
16、所述第一特征級融合模型基于注意力權(quán)重,對所述身份特征數(shù)據(jù)進(jìn)行加權(quán)計算,獲取身份特征級融合向量;
17、將所述意圖特征數(shù)據(jù)輸入至預(yù)設(shè)的第二特征級融合模型,獲取意圖特征級融合向量,包括:
18、所述第二特征級融合模型基于注意力權(quán)重,對所述意圖特征數(shù)據(jù)進(jìn)行加權(quán)計算,獲取意圖特征級融合向量。
19、根據(jù)本發(fā)明提供的多模態(tài)融合門前場景聯(lián)動控制方法,還包括:
20、獲取聯(lián)動規(guī)則設(shè)定信息,所述聯(lián)動規(guī)則設(shè)定信息表征用戶設(shè)定的聯(lián)動條件以及聯(lián)動動作;
21、根據(jù)所述規(guī)則設(shè)定信息,生成向量標(biāo)簽信息以及對應(yīng)的聯(lián)動控制信息,所述向量標(biāo)簽信息用于與所述多模態(tài)融合特征向量比較匹配;
22、將所述向量標(biāo)簽信息以及所述聯(lián)動控制信息存儲至所述聯(lián)動規(guī)則數(shù)據(jù)庫。
23、根據(jù)本發(fā)明提供的多模態(tài)融合門前場景聯(lián)動控制方法,在所述獲取多模態(tài)數(shù)據(jù)之前,還包括:
24、獲取人體檢測數(shù)據(jù);
25、根據(jù)所述人體檢測數(shù)據(jù),當(dāng)檢測到人體時,生成語音指令;
26、發(fā)送所述語音指令至對應(yīng)的受控終端,所述語音指令用于指示所述受控終端播放交互語音。
27、根據(jù)本發(fā)明提供的多模態(tài)融合門前場景聯(lián)動控制方法,在所述根據(jù)所述聯(lián)動控制信息,將各條所述控制指令發(fā)送向?qū)?yīng)的所述受控終端的同時,還包括:
28、根據(jù)所述聯(lián)動控制信息,生成告警信息;
29、將所述告警信息發(fā)送向?qū)?yīng)的用戶終端。
30、本發(fā)明還提供門前場景聯(lián)動系統(tǒng),包括:智能門鎖、攝像頭、傳聲器以及云端服務(wù)器,所述云端服務(wù)器分別與所述智能門鎖、所述攝像頭以及所述傳聲器通信連接;所述云端服務(wù)器用于實現(xiàn)上述的多模態(tài)融合門前場景聯(lián)動控制方法。
31、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上述任一種所述多模態(tài)融合門前場景聯(lián)動控制方法。
32、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述多模態(tài)融合門前場景聯(lián)動控制方法。
33、本發(fā)明提供的多模態(tài)融合門前場景聯(lián)動控制方法、系統(tǒng)及存儲介質(zhì),至少具有以下有益效果:通過獲取多模態(tài)數(shù)據(jù),多模態(tài)數(shù)據(jù)包括至少兩種單維度數(shù)據(jù),能夠反映門前人物的多角度信息,提供多個判斷依據(jù)。將多模態(tài)數(shù)據(jù)輸入至預(yù)設(shè)處理模型,獲取輸出的多模態(tài)融合特征向量,反映門前人物的身份和/或意圖特征。從預(yù)設(shè)的聯(lián)動規(guī)則數(shù)據(jù)庫中基于多模態(tài)融合特征向量,檢索匹配對應(yīng)的聯(lián)動控制信息,即根據(jù)人物的身份和意圖匹配對應(yīng)的聯(lián)動控制信息,進(jìn)而根據(jù)聯(lián)動控制信息,分別向?qū)?yīng)的受控終端發(fā)送控制指令,實現(xiàn)對受控終端的聯(lián)動控制。以此,基于多模態(tài)數(shù)據(jù)進(jìn)行處理,獲得門前人物的身份和意圖,進(jìn)而匹配對應(yīng)的聯(lián)動控制信息,達(dá)到聯(lián)動控制的效果,令聯(lián)動控制的依據(jù)來自更多維度、更加全面,同時結(jié)合門前人物的身份和意圖進(jìn)行聯(lián)動控制,有利于聯(lián)動控制更加靈活和準(zhǔn)確。
1.多模態(tài)融合門前場景聯(lián)動控制方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的多模態(tài)融合門前場景聯(lián)動控制方法,其特征在于,所述將所述多模態(tài)數(shù)據(jù)輸入至預(yù)設(shè)處理模型,獲取輸出的多模態(tài)融合特征向量,包括:
3.根據(jù)權(quán)利要求2所述的多模態(tài)融合門前場景聯(lián)動控制方法,其特征在于,所述多模態(tài)數(shù)據(jù)包括語音數(shù)據(jù),在所述對所述多模態(tài)預(yù)處理數(shù)據(jù)進(jìn)行分類處理,獲取身份特征數(shù)據(jù)以及意圖特征數(shù)據(jù)之前,還包括:
4.根據(jù)權(quán)利要求2所述的多模態(tài)融合門前場景聯(lián)動控制方法,其特征在于,所述將所述身份特征數(shù)據(jù)輸入至預(yù)設(shè)的第一特征級融合模型,獲取身份特征級融合向量,包括:
5.根據(jù)權(quán)利要求1所述的多模態(tài)融合門前場景聯(lián)動控制方法,其特征在于,還包括:
6.根據(jù)權(quán)利要求1所述的多模態(tài)融合門前場景聯(lián)動控制方法,其特征在于,在所述獲取多模態(tài)數(shù)據(jù)之前,還包括:
7.根據(jù)權(quán)利要求1所述的多模態(tài)融合門前場景聯(lián)動控制方法,其特征在于,在所述根據(jù)所述聯(lián)動控制信息,將各條所述控制指令發(fā)送向?qū)?yīng)的所述受控終端的同時,還包括:
8.門前場景聯(lián)動系統(tǒng),其特征在于,包括:智能門鎖、攝像頭、傳聲器以及云端服務(wù)器,所述云端服務(wù)器分別與所述智能門鎖、所述攝像頭以及所述傳聲器通信連接;
9.一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1至7任一項所述多模態(tài)融合門前場景聯(lián)動控制方法。
10.一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7任一項所述多模態(tài)融合門前場景聯(lián)動控制方法。