本發(fā)明涉及視頻監(jiān)控領(lǐng)域,特別涉及視屏對(duì)象相似度比較和檢索。
背景技術(shù):
目前市面上與本發(fā)明相似的現(xiàn)有技術(shù)有很多,這些技術(shù)或多或少都提到了三維模型檢索、多特征融合等關(guān)鍵技術(shù)流程。
CN101281545A提出了一種基于多特征相關(guān)反饋的三維模型檢索方法,方法中提到了服務(wù)器端對(duì)三維模型數(shù)據(jù)庫(kù)中的每個(gè)三維模型進(jìn)行處理。
CN101593205A提出了一種基于視頻的三維模型檢索方法,方法中提到了對(duì)三維模型數(shù)據(jù)庫(kù)進(jìn)行預(yù)處理,生成二維輪廓數(shù)據(jù)庫(kù)。
CN103116904A提出了一種三維模型的二維特征提取系統(tǒng),系統(tǒng)包括對(duì)輸入的三維模型數(shù)據(jù)文件進(jìn)行三維模型的建模。
但多數(shù)現(xiàn)有技術(shù)具有如下的差異與缺點(diǎn):
(1)現(xiàn)有技術(shù)需要顯式地對(duì)待檢索對(duì)象進(jìn)行三維建模,即需要數(shù)據(jù)庫(kù)存儲(chǔ)有大量的對(duì)象三維模型,這一方面大大增加了存儲(chǔ)量,另一方面又需要浪費(fèi)大量精力搜集感興趣對(duì)象的模型;
(2)現(xiàn)有技術(shù)多使用三維模型在二維平面上的投影輪廓或者梯度特征,這些人工設(shè)計(jì)的特征無(wú)法完全囊括當(dāng)前視角下物體表面的所有有用信息;
(3)現(xiàn)有技術(shù)在計(jì)算兩個(gè)對(duì)象之間的相似度時(shí),僅計(jì)算兩個(gè)對(duì)象對(duì)應(yīng)視角間的度量,而沒(méi)有考慮到物體各個(gè)視角間的關(guān)聯(lián)性及重要性,檢索正確 率有待提升。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種基于視頻的對(duì)象相似度比較方法和檢索方法及其系統(tǒng),根據(jù)參考點(diǎn)的曲率改變率選取視角重疊程度低的圖像中的參考點(diǎn)作為典型參考點(diǎn)來(lái)計(jì)算兩個(gè)對(duì)象的相似度,提高了計(jì)算效率和計(jì)算結(jié)果的準(zhǔn)確性。
為解決上述技術(shù)問(wèn)題,本發(fā)明的實(shí)施方式公開(kāi)了一種基于視頻的對(duì)象相似度比較方法,包括以下步驟:
從包含第一對(duì)象的第一圖像組中獲取第一對(duì)象的典型參考點(diǎn),從包含第二對(duì)象的第二圖像組中獲取第二對(duì)象的典型參考點(diǎn),并根據(jù)第一和第二對(duì)象的典型參考點(diǎn)計(jì)算第一和第二對(duì)象的相似度;其中,通過(guò)以下方式從包括一個(gè)對(duì)象的一個(gè)圖像組中獲取該對(duì)象的典型參考點(diǎn):
在包括一個(gè)對(duì)象的一個(gè)圖像組的每一幀圖像中提取該對(duì)象的特征,以作為該對(duì)象在一個(gè)視角的特征;
將每一個(gè)視角的特征作為多維空間中的一個(gè)參考點(diǎn),根據(jù)參考點(diǎn)擬合出平滑的超曲線;
計(jì)算超曲線上每個(gè)參考點(diǎn)的曲率,從這些參考點(diǎn)中選取多個(gè)參考點(diǎn)作為典型參考點(diǎn),其中相鄰的典型參考點(diǎn)之間的曲率改變率大于預(yù)定閾值。
本發(fā)明的實(shí)施方式還公開(kāi)了一種基于視頻的對(duì)象檢索方法,包括以下步驟:
根據(jù)對(duì)象相似度比較的方法計(jì)算待檢索對(duì)象與數(shù)據(jù)庫(kù)中對(duì)象之間的相似度;
將相似度大于閾值的對(duì)象作為待檢索對(duì)象的檢索結(jié)果。
本發(fā)明的實(shí)施方式還公開(kāi)了一種基于視頻的對(duì)象相似度比較系統(tǒng),包括以下模塊:
典型參考點(diǎn)獲取模塊,用于從包含第一對(duì)象的第一圖像組中獲取第一對(duì)象的典型參考點(diǎn),從包含第二對(duì)象的第二圖像組中獲取第二對(duì)象的典型參考點(diǎn);
相似度計(jì)算模塊,用于根據(jù)第一和第二對(duì)象的典型參考點(diǎn)計(jì)算第一和第二對(duì)象的相似度;其中,
典型參考點(diǎn)獲取模塊通過(guò)以下方式從包括一個(gè)對(duì)象的一個(gè)圖像組中獲取該對(duì)象的典型參考點(diǎn):
對(duì)象特征提取模塊,用于在包括一個(gè)對(duì)象的一個(gè)圖像組的每一幀圖像中提取該對(duì)象的特征,以作為該對(duì)象在一個(gè)視角的特征;
曲線擬合模塊,用于將每一個(gè)視角的特征作為多維空間中的一個(gè)參考點(diǎn),根據(jù)參考點(diǎn)擬合出平滑的超曲線;
參考點(diǎn)選取模塊,用于計(jì)算超曲線上每個(gè)參考點(diǎn)的曲率,從這些參考點(diǎn)中選取多個(gè)參考點(diǎn)作為典型參考點(diǎn),其中相鄰的典型參考點(diǎn)之間的曲率改變率大于預(yù)定閾值。
本發(fā)明的實(shí)施方式還公開(kāi)了一種基于視頻的對(duì)象檢索系統(tǒng),包括以下模塊:
相似度比較模塊,用于根據(jù)上文的對(duì)象相似度比較系統(tǒng),計(jì)算待檢索對(duì)象與數(shù)據(jù)庫(kù)中對(duì)象之間的相似度;
檢索結(jié)果選取模塊,用于將相似度大于閾值的對(duì)象作為待檢索對(duì)象的檢索結(jié)果。
本發(fā)明實(shí)施方式與現(xiàn)有技術(shù)相比,主要區(qū)別及其效果在于:
本發(fā)明在包括對(duì)象的圖像組中的每一幀圖像中提取對(duì)象的特征作為一個(gè)視角下的參考點(diǎn),并根據(jù)參考點(diǎn)的曲率改變率選取視角重疊程度低的圖像中的參考點(diǎn)作為典型參考點(diǎn)來(lái)計(jì)算兩個(gè)對(duì)象的相似度,提高了計(jì)算效率和計(jì)算結(jié)果的準(zhǔn)確性。
根據(jù)前述對(duì)象相似度比較的方法計(jì)算兩個(gè)對(duì)象的相似度以進(jìn)行檢索,提高了檢索效率和檢索結(jié)果的準(zhǔn)確性。
進(jìn)一步地,將對(duì)象的稠密關(guān)鍵點(diǎn)特征進(jìn)行降維可減少計(jì)算量;基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取可以最大限度地提取囊括當(dāng)前視角下物體表面的所有有價(jià)值信息,用于后續(xù)比對(duì)。
進(jìn)一步地,通過(guò)初步定位和精細(xì)化定位,能夠精確確定對(duì)象位置。
進(jìn)一步地,可直接利用匹配的結(jié)果進(jìn)行不同視角的特征融合計(jì)算相似度,而不需要任何三維模型;且在計(jì)算兩個(gè)對(duì)象的相似度時(shí),不僅關(guān)注匹配上的特征點(diǎn)即相同視角的特征,也考慮了未匹配上的特征點(diǎn)即不同視角的特征,綜合同一對(duì)象各個(gè)視角間的關(guān)聯(lián)性及重要性,有效提升相似度計(jì)算正確率。
附圖說(shuō)明
圖1是本發(fā)明第一實(shí)施方式中一種基于視頻的對(duì)象相似度比較方法的流程示意圖;
圖2是本發(fā)明第二實(shí)施方式中一種基于視頻的對(duì)象相似度比較方法的流程示意圖;
圖3是本發(fā)明第三實(shí)施方式中一種基于視頻的對(duì)象特征提取算法流程示意圖;
圖4是本發(fā)明第五實(shí)施方式中一種基于視頻的對(duì)象相似度比較系統(tǒng)的結(jié) 構(gòu)示意圖。
具體實(shí)施方式
在以下的敘述中,為了使讀者更好地理解本申請(qǐng)而提出了許多技術(shù)細(xì)節(jié)。但是,本領(lǐng)域的普通技術(shù)人員可以理解,即使沒(méi)有這些技術(shù)細(xì)節(jié)和基于以下各實(shí)施方式的種種變化和修改,也可以實(shí)現(xiàn)本申請(qǐng)各權(quán)利要求所要求保護(hù)的技術(shù)方案。
術(shù)語(yǔ)解釋?zhuān)?/p>
CNN—卷積神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)的一種常見(jiàn)結(jié)構(gòu),由多層神經(jīng)元組成,每層神經(jīng)元之間通過(guò)各種方式(卷積、池化、全連接等等)進(jìn)行連接。
稠密關(guān)鍵點(diǎn)特征—在圖像上以逐個(gè)像素的方式進(jìn)行特征的提取,將每個(gè)像素對(duì)應(yīng)的特征級(jí)聯(lián)起來(lái)所形成的高維特征,其中的代表有CDVS、SIFT、SURF等。
超曲線—位于維數(shù)大于2維的空間中的曲線。
KDE—核密度估計(jì)(Kernel Density Estimation),一種用于平滑函數(shù)的技術(shù)。
FV—Fisher Vector算法。
Hashing—哈希技術(shù),一種將特征向量通過(guò)哈希函數(shù)映射為二進(jìn)制碼的技術(shù)。
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明的實(shí)施方式作進(jìn)一步地詳細(xì)描述。
本發(fā)明第一實(shí)施方式涉及一種基于視頻的對(duì)象相似度比較方法。圖1是該基于視頻的對(duì)象相似度比較方法的流程示意圖。該基于視頻的對(duì)象相似度 比較方法包括以下步驟:
步驟101,從包含第一對(duì)象的第一圖像組中獲取第一對(duì)象的典型參考點(diǎn),從包含第二對(duì)象的第二圖像組中獲取第二對(duì)象的典型參考點(diǎn);
步驟102,根據(jù)第一和第二對(duì)象的典型參考點(diǎn)計(jì)算第一和第二對(duì)象的相似度。
待比較相似度的第一對(duì)象和第二對(duì)象是輸入的視頻序列或圖像集合中所包含的對(duì)象,既可以是數(shù)據(jù)庫(kù)中的也可以是新輸入的。
其中,如圖所示,在步驟101中,通過(guò)以下方式從包括一個(gè)對(duì)象的一個(gè)圖像組中獲取該對(duì)象的典型參考點(diǎn):
步驟111,在包括一個(gè)對(duì)象的一個(gè)圖像組的每一幀圖像中提取該對(duì)象的特征,以作為該對(duì)象在一個(gè)視角的特征。
可以理解,包含對(duì)象的每一幀圖像對(duì)應(yīng)于對(duì)象的一個(gè)視角,因此在該幀圖像中提取的特征可作為對(duì)象在對(duì)應(yīng)視角下的特征。
步驟112,將每一個(gè)視角的特征作為多維空間中的一個(gè)參考點(diǎn),根據(jù)參考點(diǎn)擬合出平滑的超曲線。
在該步驟中,根據(jù)參考點(diǎn)擬合出平滑的超曲線可以使用核密度估計(jì)方法進(jìn)行擬合,可可以根據(jù)插值法、最小二乘法等其它方法進(jìn)行擬合)。
步驟113,計(jì)算超曲線上每個(gè)參考點(diǎn)的曲率,從這些參考點(diǎn)中選取多個(gè)參考點(diǎn)作為典型參考點(diǎn),其中相鄰的典型參考點(diǎn)之間的曲率改變率大于預(yù)定閾值。
參考點(diǎn)的曲率改變率反映了視角變化程度,相鄰的典型參考點(diǎn)之間的曲率改變率大于預(yù)定閾值則表示相鄰的典型參考點(diǎn)所對(duì)應(yīng)的圖像之間的視角變化程度較大。因此,選取曲率改變率大于預(yù)定閾值的參考點(diǎn)作為典型參考點(diǎn),舍棄其余曲率改變率較小的參考點(diǎn),最后選取的圖像視角重疊程度較低,一 方面減少了圖像冗余提高了計(jì)算效果,另一方面,對(duì)重疊視角的圖像不進(jìn)行重復(fù)計(jì)算,提高了計(jì)算的準(zhǔn)確性。
舉例來(lái)說(shuō),對(duì)象為人物,假設(shè)包含第一人物和第二人物的兩個(gè)圖像組中分別有三幀圖像是背面視角,只有一幀圖像是正面視角,且三個(gè)背面視角下的圖像非常相似,而正面視角下的圖像完全不同(第一人物和第二人物不是同一個(gè)人,而背影非常相似),如果不對(duì)重疊視角的圖像進(jìn)行篩選和刪除,則在計(jì)算第一人物和第二人物的相似度時(shí),三個(gè)背面視角所占的權(quán)重肯定大于一個(gè)正面視角的權(quán)重,計(jì)算結(jié)果有可能是相似度較高,而第一人物和第二人物根本就不是同一個(gè)人,因此計(jì)算結(jié)果不準(zhǔn)確。所以,如上先從參考點(diǎn)中選取曲率改變率大于預(yù)定閾值的作為典型參考點(diǎn),以使圖像視角重疊程度較低,有利于提高計(jì)算準(zhǔn)確度。
選取典型參考點(diǎn)可以有多種方法,在一個(gè)優(yōu)選例中,可以將參考點(diǎn)按照曲率改變率進(jìn)行分組,選取每組參考點(diǎn)中的第一個(gè)作為典型參考點(diǎn),在另一優(yōu)選例中,也可以在每組參考點(diǎn)中隨機(jī)選取一個(gè)作為典型參考點(diǎn)。在本發(fā)明的其它實(shí)施方式中,也可以不對(duì)參考點(diǎn)進(jìn)行分組,而直接根據(jù)曲率改變率選取典型參考點(diǎn)。
本實(shí)施方式在包括對(duì)象的圖像組中的每一幀圖像中提取對(duì)象的特征作為一個(gè)視角下的參考點(diǎn),并根據(jù)參考點(diǎn)的曲率改變率選取視角重疊程度低的圖像中的參考點(diǎn)作為典型參考點(diǎn)來(lái)計(jì)算兩個(gè)對(duì)象的相似度,提高了計(jì)算效率和計(jì)算結(jié)果的準(zhǔn)確性。
第二實(shí)施方式在第一實(shí)施方式的基礎(chǔ)上進(jìn)行了改進(jìn),主要改進(jìn)之處在于如何提取對(duì)象的特征:將對(duì)象的稠密關(guān)鍵點(diǎn)特征進(jìn)行降維可減少計(jì)算量;基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取可以最大限度地提取囊括當(dāng)前視角下物體表面的所有有價(jià)值信息,用于后續(xù)比對(duì);通過(guò)初步定位和精細(xì)化定位,能夠精確確定對(duì)象位置。具體地說(shuō):
步驟111包括以下子步驟:
對(duì)于每一幀圖像,確定在該幀圖像中對(duì)象的位置;
根據(jù)對(duì)象的位置對(duì)每一幀圖像進(jìn)行采樣;
根據(jù)采樣結(jié)果提取特征作為該對(duì)象在一個(gè)視角的特征。
此外,可以理解,在另一優(yōu)選例中,通過(guò)對(duì)對(duì)象位置加入一個(gè)隨機(jī)擾動(dòng)值的方式進(jìn)行采樣,使得對(duì)象位置具有一定的偏移量,增加了樣本分布。
優(yōu)選地,上述根據(jù)采樣結(jié)果提取特征作為該對(duì)象在一個(gè)視角的特征的子步驟進(jìn)一步包括以下子步驟:
提取屬于該對(duì)象的稠密關(guān)鍵點(diǎn)特征,對(duì)稠密關(guān)鍵點(diǎn)特征進(jìn)行降維并映射為低維子空間特征;
提取屬于該對(duì)象的基于卷積神經(jīng)網(wǎng)絡(luò)的特征;
將降維后的稠密關(guān)鍵點(diǎn)特征與基于卷積神經(jīng)網(wǎng)絡(luò)的特征進(jìn)行級(jí)聯(lián),形成對(duì)象在一個(gè)視角的特征。
上述稠密關(guān)鍵點(diǎn)特征可以為角點(diǎn)的對(duì)比度和梯度,包括但不限于DDVS,SIFT等。
優(yōu)選地,上述確定在該幀圖像中對(duì)象的位置的步驟,包括以下子步驟:
提取出對(duì)象的候選框,對(duì)于每個(gè)候選框使用基于卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法對(duì)感興趣對(duì)象進(jìn)行初步定位;
使用邊界框回歸技術(shù)進(jìn)一步精細(xì)化定位對(duì)象位置。
可以理解,提取對(duì)象的候選框時(shí)可使用圖像處理方法進(jìn)行自動(dòng)提取。
在本發(fā)明的其它實(shí)施方式中,除了基于卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法,也可以使用其它方法對(duì)對(duì)象進(jìn)行初步定位,包括可變形部件模型DPM、AdaBoost等。
另外,在本發(fā)明的其它實(shí)施方式中,除了邊界框回歸技術(shù),也可以使用其它方法進(jìn)一步精細(xì)化對(duì)象位置,例如非極大值抑制等。
本發(fā)明第三實(shí)施方式涉及一種基于視頻的對(duì)象相似度比較方法,第三實(shí)施方式在第一實(shí)施方式的基礎(chǔ)上進(jìn)行了改進(jìn),主要改進(jìn)之處在于:
直接利用匹配的結(jié)果進(jìn)行不同視角的特征融合計(jì)算相似度,而不需要任何三維模型;且在計(jì)算兩個(gè)對(duì)象的相似度時(shí),不僅關(guān)注匹配上的特征點(diǎn)即相同視角的特征,也考慮了未匹配上的特征點(diǎn)即不同視角的特征,綜合同一對(duì)象各個(gè)視角間的關(guān)聯(lián)性及重要性,有效提升相似度計(jì)算正確率。具體地說(shuō):
步驟102包括以下子步驟:
將第一和第二對(duì)象每個(gè)典型參考點(diǎn)映射為二進(jìn)制串,作為第一和第二對(duì)象的特征碼;
將第一和第二對(duì)象的典型參考點(diǎn)對(duì)應(yīng)的特征碼看作二分圖中的兩組特征點(diǎn)集合,將兩組特征點(diǎn)集合進(jìn)行匹配得到每個(gè)特征點(diǎn)的最佳匹配特征點(diǎn);
使用如下公式計(jì)算相似度:
其中,表示所有匹配上的特征點(diǎn)的集合,表示待檢索對(duì)象中沒(méi)有匹配上的特征點(diǎn)的集合,表示數(shù)據(jù)庫(kù)對(duì)象中沒(méi)有匹配上的特征點(diǎn)的集合;pu,pv表示特征碼,H(pu,pv)表示pu,pv之間的Hamming距;|pu|表示集合中每個(gè)特征碼的長(zhǎng)度,|pv|表示集合中每個(gè)特征碼的長(zhǎng)度,α和β用于控制非匹配結(jié)果與匹配結(jié)果之間的重要性。
可以理解,在將兩個(gè)對(duì)象不同視角的特征點(diǎn)進(jìn)行匹配后計(jì)算相似度,而不需要顯示地對(duì)對(duì)象進(jìn)行三維建模,不需要在數(shù)據(jù)庫(kù)中存儲(chǔ)大量的對(duì)象三維模型。
將每個(gè)典型參考點(diǎn)對(duì)應(yīng)的高維矢量映射為二進(jìn)制串,大大降低了計(jì)算高維空間點(diǎn)之間距離時(shí)的復(fù)雜度。映射為二進(jìn)制串時(shí),可通過(guò)哈希技術(shù)進(jìn)行映 射(將任意數(shù)值映射為二進(jìn)制表示的方式稱為統(tǒng)稱為哈希技術(shù))。
此外,在本發(fā)明的其它實(shí)施方式中,將每個(gè)典型參考點(diǎn)映射為二進(jìn)制串作為當(dāng)前對(duì)象在當(dāng)前視角的特征碼的步驟并不是必須的,也可以直接使用高維矢量的典型參考點(diǎn)進(jìn)行計(jì)算。
在另一優(yōu)選例中,將兩組特征點(diǎn)集合進(jìn)行匹配時(shí),可以應(yīng)用匈牙利算法求解得到最佳匹配。在本發(fā)明的其它實(shí)施方式中,也可以采用其它算法對(duì)兩組特征點(diǎn)集合進(jìn)行匹配。
作為第二實(shí)施方式和第三實(shí)施方式的優(yōu)選例,整個(gè)算法的流程圖如圖2和圖3所示,如圖2所示為基于視頻的對(duì)象相似度比較方法的流程示意圖,如圖3所示為基于視頻的對(duì)象特征提取算法流程示意圖。
圖2中,“輸入對(duì)象視頻序列或圖像集合(待檢索)”與“輸入對(duì)象視頻序列或圖像集合(數(shù)據(jù)庫(kù))”分時(shí)輸入,生成各自的二元特征碼集合。
其中圖2特征提取部分的操作,針對(duì)每張圖片分別進(jìn)行,如圖3所示。
該優(yōu)選例具體步驟如下:
1.對(duì)于輸入的每一幀圖像,我們首先提取出候選框。對(duì)于每一個(gè)候選框使用基于卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法確定感興趣對(duì)象的大致位置,然后使用邊界框回歸技術(shù)進(jìn)一步精細(xì)化對(duì)象位置。
2.在確定每一幀的對(duì)象位置后,我們通過(guò)對(duì)對(duì)象位置加入一個(gè)隨機(jī)擾動(dòng)值的方式來(lái)進(jìn)行采樣。經(jīng)采樣后在所有樣本的區(qū)域中提取屬于該對(duì)象當(dāng)前視角的稠密關(guān)鍵點(diǎn)特征(包括但不限于CDVS、SIFT等)以及CNN特征。對(duì)于關(guān)鍵點(diǎn)特征,我們使用Fisher Vector算法將其映射為64維的低維子空間特征。最后將關(guān)鍵點(diǎn)特征與CNN特征級(jí)聯(lián)起來(lái)形成該對(duì)象當(dāng)前視角的特征。
3.每一幀都進(jìn)行第2步操作。將每一幀中對(duì)象對(duì)應(yīng)視角的特征看作多維空間中的一個(gè)參考點(diǎn),使用核密度估計(jì)(kernel density estimation)方法擬合出平滑的超曲線。
4.計(jì)算超曲線上每個(gè)參考點(diǎn)的曲率,通過(guò)設(shè)定閾值,來(lái)選取曲率改變率較大的參考點(diǎn)(以及第一個(gè)參考點(diǎn))作為典型參考點(diǎn),用來(lái)表示同一對(duì)象在不同視角下的特征。丟棄其余曲率改變率較小的參考點(diǎn)。
曲率改變率,是指當(dāng)前參考點(diǎn)曲率與相鄰參考點(diǎn)曲率的差的絕對(duì)值。相鄰參考點(diǎn)曲率,可以是當(dāng)前參考點(diǎn)的前一個(gè)參考點(diǎn)的曲率,也可以是當(dāng)前參考點(diǎn)的前后兩個(gè)參考點(diǎn)的曲率的平均值。
5.對(duì)于每個(gè)參考點(diǎn),可以通過(guò)哈希技術(shù),將其映射為一個(gè)二進(jìn)制串,作為當(dāng)前對(duì)象在當(dāng)前視角的特征碼。在計(jì)算兩個(gè)不同對(duì)象之間的相似度時(shí),我們使用了二分圖匹配算法。將欲計(jì)算相似度的兩個(gè)對(duì)象的每個(gè)參考點(diǎn)對(duì)應(yīng)的特征碼看成二分圖(bipartite graph)中的兩組節(jié)點(diǎn)集合,兩兩節(jié)點(diǎn)之間的權(quán)值為相應(yīng)特征碼的Hamming距。然后應(yīng)用經(jīng)典的匈牙利算法來(lái)求解,得到最佳匹配。最后相似度得分計(jì)算如下:
其中表示所有匹配上的特征點(diǎn)的集合,表示待檢索對(duì)象中沒(méi)有匹配上的特征點(diǎn)的集合,表示數(shù)據(jù)庫(kù)對(duì)象中沒(méi)有匹配上的特征點(diǎn)的集合。pu,pv表示特征碼,H(pu,pv)表示pu,pv之間的Hamming距;|pu|表示集合中每個(gè)特征碼的長(zhǎng)度,|pv|表示集合中每個(gè)特征碼的長(zhǎng)度。α和β用于控制非匹配結(jié)果與匹配結(jié)果之間的重要性。
本發(fā)明第四實(shí)施方式涉及一種基于視頻的對(duì)象檢索方法。該基于視頻的對(duì)象檢索方法包括以下步驟:
根據(jù)第一至第三實(shí)施方式中的對(duì)象相似度比較的方法計(jì)算待檢索對(duì)象與數(shù)據(jù)庫(kù)中對(duì)象之間的相似度;
將相似度大于閾值的對(duì)象作為待檢索對(duì)象的檢索結(jié)果。
根據(jù)前述實(shí)施方式中的對(duì)象相似度比較的方法計(jì)算兩個(gè)對(duì)象的相似度 以進(jìn)行檢索,提高了檢索效率和檢索結(jié)果的準(zhǔn)確性。
本發(fā)明的各方法實(shí)施方式均可以以軟件、硬件、固件等方式實(shí)現(xiàn)。不管本發(fā)明是以軟件、硬件、還是固件方式實(shí)現(xiàn),指令代碼都可以存儲(chǔ)在任何類(lèi)型的計(jì)算機(jī)可訪問(wèn)的存儲(chǔ)器中(例如永久的或者可修改的,易失性的或者非易失性的,固態(tài)的或者非固態(tài)的,固定的或者可更換的介質(zhì)等等)。同樣,存儲(chǔ)器可以例如是可編程陣列邏輯(Programmable Array Logic,簡(jiǎn)稱“PAL”)、隨機(jī)存取存儲(chǔ)器(Random Access Memory,簡(jiǎn)稱“RAM”)、可編程只讀存儲(chǔ)器(Programmable Read Only Memory,簡(jiǎn)稱“PROM”)、只讀存儲(chǔ)器(Read-Only Memory,簡(jiǎn)稱“ROM”)、電可擦除可編程只讀存儲(chǔ)器(Electrically Erasable Programmable ROM,簡(jiǎn)稱“EEPROM”)、磁盤(pán)、光盤(pán)、數(shù)字通用光盤(pán)(Digital Versatile Disc,簡(jiǎn)稱“DVD”)等等。
本發(fā)明第五實(shí)施方式涉及一種基于視頻的對(duì)象相似度比較系統(tǒng),圖4是該基于視頻的對(duì)象相似度比較系統(tǒng)的結(jié)構(gòu)示意圖。該基于視頻的對(duì)象相似度比較系統(tǒng)包括以下模塊:
典型參考點(diǎn)獲取模塊,用于從包含第一對(duì)象的第一圖像組中獲取第一對(duì)象的典型參考點(diǎn),從包含第二對(duì)象的第二圖像組中獲取第二對(duì)象的典型參考點(diǎn)。
相似度計(jì)算模塊,用于根據(jù)第一和第二對(duì)象的典型參考點(diǎn)計(jì)算第一和第二對(duì)象的相似度。其中,
典型參考點(diǎn)獲取模塊通過(guò)以下方式從包括一個(gè)對(duì)象的一個(gè)圖像組中獲取該對(duì)象的典型參考點(diǎn):
對(duì)象特征提取模塊,用于在包括一個(gè)對(duì)象的一個(gè)圖像組的每一幀圖像中提取該對(duì)象的特征,以作為該對(duì)象在一個(gè)視角的特征。
曲線擬合模塊,用于將每一個(gè)視角的特征作為多維空間中的一個(gè)參考點(diǎn),根據(jù)參考點(diǎn)擬合出平滑的超曲線。
參考點(diǎn)選取模塊,用于計(jì)算超曲線上每個(gè)參考點(diǎn)的曲率,從這些參考點(diǎn)中選取多個(gè)參考點(diǎn)作為典型參考點(diǎn),其中相鄰的典型參考點(diǎn)之間的曲率改變率大于預(yù)定閾值。
本實(shí)施方式在包括對(duì)象的圖像組中的每一幀圖像中提取對(duì)象的特征作為一個(gè)視角下的參考點(diǎn),并根據(jù)參考點(diǎn)的曲率改變率選取視角重疊程度低的圖像中的參考點(diǎn)作為典型參考點(diǎn)來(lái)計(jì)算兩個(gè)對(duì)象的相似度,提高了計(jì)算效率和計(jì)算結(jié)果的準(zhǔn)確性。
第一實(shí)施方式是與本實(shí)施方式相對(duì)應(yīng)的方法實(shí)施方式,本實(shí)施方式可與第一實(shí)施方式互相配合實(shí)施。第一實(shí)施方式中提到的相關(guān)技術(shù)細(xì)節(jié)在本實(shí)施方式中依然有效,為了減少重復(fù),這里不再贅述。相應(yīng)地,本實(shí)施方式中提到的相關(guān)技術(shù)細(xì)節(jié)也可應(yīng)用在第一實(shí)施方式中。
本發(fā)明第六實(shí)施方式涉及一種基于視頻的對(duì)象相似度比較系統(tǒng),第六實(shí)施方式在第五實(shí)施方式的基礎(chǔ)上進(jìn)行了改進(jìn),主要改進(jìn)之處在于如何提取對(duì)象特征:
將對(duì)象的稠密關(guān)鍵點(diǎn)特征進(jìn)行降維可減少計(jì)算量;基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取可以最大限度地提取囊括當(dāng)前視角下物體表面的所有有價(jià)值信息,用于后續(xù)比對(duì);通過(guò)初步定位和精細(xì)化定位,能夠精確確定對(duì)象位置。具體地說(shuō):
對(duì)象特征提取模塊包括以下子模塊:
對(duì)象位置確定子模塊,用于對(duì)每一幀圖像確定在該幀圖像中對(duì)象的位置;
采樣子模塊,用于根據(jù)對(duì)象的位置對(duì)每一幀圖像進(jìn)行采樣;
提取特征子模塊,用于根據(jù)采樣結(jié)果提取特征作為該對(duì)象在一個(gè)視角的特征。
優(yōu)選地,提取特征子模塊進(jìn)一步包括以下子模塊:
第一特征提取子模塊,用于提取屬于該對(duì)象的稠密關(guān)鍵點(diǎn)特征,對(duì)稠密關(guān)鍵點(diǎn)特征進(jìn)行降維并映射為低維子空間特征;
第二特征提取子模塊,用于提取屬于該對(duì)象的基于卷積神經(jīng)網(wǎng)絡(luò)的特征;
特征級(jí)聯(lián)子模塊,用于將降維后的稠密關(guān)鍵點(diǎn)特征與基于卷積神經(jīng)網(wǎng)絡(luò)的特征進(jìn)行級(jí)聯(lián),形成對(duì)象在一個(gè)視角的特征。
優(yōu)選地,對(duì)象位置確定子模塊進(jìn)一步包括以下子模塊:
初步定位子模塊,用于提取出對(duì)象的候選框,對(duì)于每個(gè)候選框使用基于卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法對(duì)感興趣對(duì)象進(jìn)行初步定位;
精細(xì)定位子模塊,用于使用邊界框回歸技術(shù)進(jìn)一步精細(xì)化定位對(duì)象位置。
第二實(shí)施方式是與本實(shí)施方式相對(duì)應(yīng)的方法實(shí)施方式,本實(shí)施方式可與第二實(shí)施方式互相配合實(shí)施。第二實(shí)施方式中提到的相關(guān)技術(shù)細(xì)節(jié)在本實(shí)施方式中依然有效,為了減少重復(fù),這里不再贅述。相應(yīng)地,本實(shí)施方式中提到的相關(guān)技術(shù)細(xì)節(jié)也可應(yīng)用在第二實(shí)施方式中。
本發(fā)明第七實(shí)施方式涉及一種基于視頻的對(duì)象相似度比較系統(tǒng),第七實(shí)施方式在第五實(shí)施方式的基礎(chǔ)上進(jìn)行了改進(jìn),主要改進(jìn)之處在于:
直接利用匹配的結(jié)果進(jìn)行不同視角的特征融合計(jì)算相似度,而不需要任何三維模型;且在計(jì)算兩個(gè)對(duì)象的相似度時(shí),不僅關(guān)注匹配上的特征點(diǎn)即相同視角的特征,也考慮了未匹配上的特征點(diǎn)即不同視角的特征,綜合同一對(duì)象各個(gè)視角間的關(guān)聯(lián)性及重要性,有效提升相似度計(jì)算正確率。具體地說(shuō):
相似度計(jì)算模塊包括以下子模塊:
映射子模塊,用于將第一和第二對(duì)象每個(gè)典型參考點(diǎn)映射為二進(jìn)制串, 作為第一和第二對(duì)象的特征碼;
匹配子模塊,用于將第一和第二對(duì)象的典型參考點(diǎn)對(duì)應(yīng)的特征碼看作二分圖中的兩組特征點(diǎn)集合,將兩組特征點(diǎn)集合進(jìn)行匹配得到每個(gè)特征點(diǎn)的最佳匹配特征點(diǎn);
計(jì)算子模塊,用于使用如下公式計(jì)算相似度:
其中,表示所有匹配上的特征點(diǎn)的集合,表示待檢索對(duì)象中沒(méi)有匹配上的特征點(diǎn)的集合,表示數(shù)據(jù)庫(kù)對(duì)象中沒(méi)有匹配上的特征點(diǎn)的集合;pu,pv表示特征碼,H(pu,pv)表示pu,pv之間的Hamming距;|pu|表示集合中每個(gè)特征碼的長(zhǎng)度,|pv|表示集合中每個(gè)特征碼的長(zhǎng)度,α和β用于控制非匹配結(jié)果與匹配結(jié)果之間的重要性。
第三實(shí)施方式是與本實(shí)施方式相對(duì)應(yīng)的方法實(shí)施方式,本實(shí)施方式可與第三實(shí)施方式互相配合實(shí)施。第三實(shí)施方式中提到的相關(guān)技術(shù)細(xì)節(jié)在本實(shí)施方式中依然有效,為了減少重復(fù),這里不再贅述。相應(yīng)地,本實(shí)施方式中提到的相關(guān)技術(shù)細(xì)節(jié)也可應(yīng)用在第三實(shí)施方式中。
本發(fā)明第八實(shí)施方式涉及一種基于視頻的對(duì)象檢索系統(tǒng),包括以下模塊:
相似度比較模塊,用于根據(jù)第五至第七實(shí)施方式中任一項(xiàng)的對(duì)象相似度比較系統(tǒng),計(jì)算待檢索對(duì)象與數(shù)據(jù)庫(kù)中對(duì)象之間的相似度。
檢索結(jié)果選取模塊,用于將相似度大于閾值的對(duì)象作為待檢索對(duì)象的檢索結(jié)果。
根據(jù)前述實(shí)施方式中的對(duì)象相似度比較的方法計(jì)算兩個(gè)對(duì)象的相似度以進(jìn)行檢索,提高了檢索效率和檢索結(jié)果的準(zhǔn)確性。
第四實(shí)施方式是與本實(shí)施方式相對(duì)應(yīng)的方法實(shí)施方式,本實(shí)施方式可與第四實(shí)施方式互相配合實(shí)施。第四實(shí)施方式中提到的相關(guān)技術(shù)細(xì)節(jié)在本實(shí)施 方式中依然有效,為了減少重復(fù),這里不再贅述。相應(yīng)地,本實(shí)施方式中提到的相關(guān)技術(shù)細(xì)節(jié)也可應(yīng)用在第四實(shí)施方式中。
本發(fā)明提出了一種基于視頻的對(duì)象特征多視角融合及檢索技術(shù)。
特征融合步驟:本發(fā)明以同一對(duì)象的連續(xù)時(shí)間幀或者多張多角度抓拍圖像做為輸入,輸出對(duì)于此對(duì)象的三維特征描述的方法。對(duì)于包含該對(duì)象的每一幀圖像,提取屬于該對(duì)象的關(guān)鍵點(diǎn)特征(包括但不限于CDVS、SIFT等);同時(shí)使用多視角回歸算法解析出每一幀所對(duì)應(yīng)的視角;接著盡可能地選擇視角重疊程度較低的圖像,將其中每一幀圖像上提取的關(guān)鍵點(diǎn)特征融合(包括但不限于CDVS、SIFT等)。
檢索步驟:根據(jù)待檢索對(duì)象的角度,選擇對(duì)應(yīng)的特征與數(shù)據(jù)庫(kù)中的對(duì)象進(jìn)行比較,計(jì)算相似度。
與本發(fā)明與相似的方案差異點(diǎn):
CN101281545A提出了一種基于多特征相關(guān)反饋的三維模型檢索方法,方法中提到了服務(wù)器端對(duì)三維模型數(shù)據(jù)庫(kù)中的每個(gè)三維模型進(jìn)行處理。本發(fā)明不涉及任何對(duì)象的任何三維模型,這是最本質(zhì)也是最重要的區(qū)別。
CN101593205A提出了一種基于視頻的三維模型檢索方法,方法中提到了對(duì)三維模型數(shù)據(jù)庫(kù)進(jìn)行預(yù)處理,生成二維輪廓數(shù)據(jù)庫(kù)。本發(fā)明不涉及任何對(duì)象的任何三維模型,這是最本質(zhì)也是最重要的區(qū)別。
CN103116904A提出了一種三維模型的二維特征提取系統(tǒng),系統(tǒng)包括對(duì)輸入的三維模型數(shù)據(jù)文件進(jìn)行三維模型的建模。本發(fā)明不涉及任何對(duì)象的任何三維模型,這是最本質(zhì)也是最重要的區(qū)別。
本申請(qǐng)帶來(lái)的有益效果:
(1)現(xiàn)有技術(shù)需要顯示地對(duì)檢索對(duì)象進(jìn)行三維建模,即需要數(shù)據(jù)庫(kù)存儲(chǔ)有大量的對(duì)象三維模型,這一方面大大增加了存儲(chǔ)量,另一方面又需要浪 費(fèi)大量精力搜集感興趣對(duì)象的模型;而本發(fā)明無(wú)需任何三維模型,即可對(duì)不同視角的特征進(jìn)行融合;
(2)現(xiàn)有技術(shù)多使用三維模型在二維平面上的投影輪廓或者梯度特征,這些人工設(shè)計(jì)的特征無(wú)法完全囊括當(dāng)前視角下物體表面的所有有用信息;而基于卷積神經(jīng)網(wǎng)絡(luò)的方法可以最大限度地提取有價(jià)值特征用于后續(xù)比對(duì);
(3)現(xiàn)有技術(shù)在計(jì)算兩個(gè)對(duì)象之間的相似度時(shí),僅計(jì)算兩個(gè)對(duì)象對(duì)應(yīng)視角間的度量,而沒(méi)有考慮到同一物體各個(gè)視角間的關(guān)聯(lián)性及重要性,檢索正確率有待提升。本發(fā)明通盤(pán)考慮了物體所有視角之間的關(guān)聯(lián)性,大大提升了多視角對(duì)象檢索的正確率。
需要說(shuō)明的是,本發(fā)明各設(shè)備實(shí)施方式中提到的各模塊都是邏輯模塊,在物理上,一個(gè)邏輯模塊可以是一個(gè)物理模塊,也可以是一個(gè)物理模塊的一部分,還可以以多個(gè)物理模塊的組合實(shí)現(xiàn),這些邏輯模塊本身的物理實(shí)現(xiàn)方式并不是最重要的,這些邏輯模塊所實(shí)現(xiàn)的功能的組合才是解決本發(fā)明所提出的技術(shù)問(wèn)題的關(guān)鍵。此外,為了突出本發(fā)明的創(chuàng)新部分,本發(fā)明上述各設(shè)備實(shí)施方式并沒(méi)有將與解決本發(fā)明所提出的技術(shù)問(wèn)題關(guān)系不太密切的模塊引入,這并不表明上述設(shè)備實(shí)施方式并不存在其它的模塊。
需要說(shuō)明的是,在本專(zhuān)利的權(quán)利要求和說(shuō)明書(shū)中,諸如第一和第二等之類(lèi)的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。
雖然通過(guò)參照本發(fā)明的某些優(yōu)選實(shí)施方式,已經(jīng)對(duì)本發(fā)明進(jìn)行了圖示和描述,但本領(lǐng)域的普通技術(shù)人員應(yīng)該明白,可以在形式上和細(xì)節(jié)上對(duì)其作各種改變,而不偏離本發(fā)明的精神和范圍。