日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

用于檢索特征向量數(shù)據(jù)空間的方法

文檔序號:6651879閱讀:449來源:國知局
專利名稱:用于檢索特征向量數(shù)據(jù)空間的方法
技術(shù)領域
本發(fā)明涉及一種檢索特征向量數(shù)據(jù)空間的方法,更具體地說涉及一種在特征向量不是均勻分布的多維向量空間中有效地執(zhí)行檢索的用于檢索特征向量數(shù)據(jù)空間的方法。
典型的多媒體數(shù)據(jù)描述符的多維數(shù)在設計有效的檢索方案時引起挑戰(zhàn)性的問題。因此,近來已經(jīng)提出了幾個新的檢索結(jié)構(gòu)。一個通常的假設是在一個向量空間之內(nèi)特征向量均勻分布。但是,象圖象紋理描述符之類的許多媒體描述符并不是均勻分布的。舉例來說,在使用眾所周知的向量近似(VA)文件(files)的方法中,該方法的特性取決于特征向量的均勻分布性,并且通常該方法有一個問題,就是當在特征向量不是均勻分布的多維向量空間中檢索特征向量數(shù)據(jù)時,其特性明顯下降。
為了解決上述問題,本發(fā)明的目的是提供一種在特征向量不是均勻分布的多維向量空間中有效地執(zhí)行檢索的用于檢索特征向量數(shù)據(jù)空間的方法。
于是,為了達到上述目的,提供了一種依照本發(fā)明的檢索特征向量數(shù)據(jù)空間的方法,該方法包括(a)基于特征向量數(shù)據(jù)空間中特征向量數(shù)據(jù)的統(tǒng)計分布通過自適應地近似特征向量來檢索特征向量空間的步驟。
同樣,步驟(a)包括步驟(a-1)計算特征向量數(shù)據(jù)空間中特征向量數(shù)據(jù)的統(tǒng)計分布;(a-2)使用統(tǒng)計分布估計數(shù)據(jù)的邊界分布;(a-3)將估計的分布劃分為多個網(wǎng)格,其中在每個網(wǎng)格中處理數(shù)據(jù)的分布變?yōu)榫鶆?;?a-4)使用劃分的網(wǎng)格檢索特征向量數(shù)據(jù)空間。
同樣,在步驟(a-4)之前,最好進一步包括當新數(shù)據(jù)加入時基于前一個概率分布函數(shù)和更新的概率分布函數(shù)來更新網(wǎng)格的步驟。
同樣,最好步驟(a-4)進一步包括使用向量近似(VA)文件的檢索步驟。
同樣,最好多個網(wǎng)格的數(shù)目由分配給該維的比特數(shù)來確定。
同樣,最好步驟(a-2)進一步包括步驟(a-2-1)使用預定分布函數(shù)的加權(quán)和來定義概率分布函數(shù);和(a-2-2)通過使用在步驟(a-2-1)中定義的概率分布函數(shù)估計預定參數(shù)來獲得估計的概率分布函數(shù)。
同樣,最好步驟(a-2-2)包括使用在步驟(a-2-1)中定義的概率分布函數(shù)基于最大似然算法通過每次都使用所有N個預定數(shù)據(jù)來估計預定參數(shù)而獲得估計的概率分布函數(shù)的步驟,其中N為一個正整數(shù)。
同樣,最好預定的分布函數(shù)為高斯函數(shù)。
同樣,在步驟(a-2-1)中包括假設單維信號的概率分布函數(shù)p(x)為p(x)=Σj=1Np(x|j)P(j)]]>的步驟,其中p(x|j)定義為p(x|j)=12πσj2exp{-(x-μj)22σj2},]]>并且混合參數(shù)P(j)滿足條件。
同樣,最好步驟(a-2-2)進一步包括通過找到使φ(φ1,...,φM)=Πl=0Np(v[l]|(φl,...,φM))]]>最大的Φj來獲得被估計的概率分布函數(shù)的步驟,其中將被估計的參數(shù)為j=1,...M和l=1,...N,以及v[l]為給定的數(shù)據(jù)集合。
同樣,最好步驟(a-2-2)進一步包括根據(jù)μjt+1=Σl=1Np(j|v[l])tv[l]Σl=1Np(j|v[l])t,]]>(σj2)t+1=Σl=1Np(j|v[l]t(v[l]-μjt)2Σl=1Np(j|v[l])t]]>P(j)t+1=1NΣl=1Np(j|v[l])t]]>來獲得被估計的參數(shù)的步驟,其中t為代表迭代次數(shù)的正整數(shù)。
同樣,最好步驟(a-2-2)進一步包括以下步驟如果當使用N個數(shù)據(jù)V[l]估計的參數(shù)集合{P(j)N,μjN,(σj2)N}]]>給定時新數(shù)據(jù)v[N+1]加入,則通過計算 (σj2)N+1=(σj2)N+θjN+1[(v[N+1]-μjN)2-(σj2)N],]]>P(j)N+1=P(j)N+1N+1(p(j|v[N+1]-P(j)N)]]>和(θjN+1)-1=p(j|v[N])p(j|[N-1])(θjN)-1+1]]>來獲得更新的參數(shù)集合。
同樣,最好步驟(a-2-2)進一步包括以下步驟對于各維,度量定義為ρ=∫(P^old(x)-P^new(x))2dx∫P^old(x)2dx]]>的概率分布函數(shù)的變化,其中前一個概率分布函數(shù)為 更新后的概率分布函數(shù)為 以及如果ρ大于預定的閾值,則更新針對該維的近似值。
同樣,最好步驟(a-3)包括以下步驟劃分概率分布函數(shù),以使使用通過滿足條件的邊界點c[l]確定的多個網(wǎng)格時每個網(wǎng)格所覆蓋的面積∫c[l]c[l+1]p^(x)dx=12b∫c
c[2b]p^(x)dx]]>相同,其中估計概率分布函數(shù)為 本發(fā)明的上述目的和優(yōu)點通過結(jié)合附圖對其優(yōu)選實施例的詳細描述將變的更加清楚,其中

圖1為說明依照本發(fā)明優(yōu)選實施例的檢索方法主要步驟的流程圖;圖2說明即使在各維上數(shù)據(jù)的邊界分布都是均勻的,但數(shù)據(jù)聯(lián)合分布仍舊是不均勻的而是已經(jīng)聚合的情況;圖3A為說明特征向量數(shù)據(jù)空間內(nèi)的特征向量數(shù)據(jù)的頻譜圖;圖3B為說明對頻譜圖概率分布函數(shù)估計圖;圖4A為說明數(shù)據(jù)集合的特征向量值的圖;圖4B為說明圖4A的數(shù)據(jù)集合頻譜的計算結(jié)果圖;圖4C、圖4D和圖4E為當用于估計的元素個數(shù)分別為1700、3400和5000時的估計概率分布函數(shù)圖;圖5A和圖5B為說明使用常規(guī)索引方法和本發(fā)明的索引方法在第一和第二篩選步驟中所訪問的特征向量個數(shù)的對比圖。
下面將結(jié)合附圖闡述本發(fā)明的優(yōu)選實施例。
圖1為說明依照本發(fā)明優(yōu)選實施例的檢索方法的主要步驟的流程圖。依照本發(fā)明,基于特征向量數(shù)據(jù)空間內(nèi)的特征向量數(shù)據(jù)的統(tǒng)計分布自適應地生成向量近似(VA)文件。也就是說,因為密度分布單元(cell)可能使索引特性惡化,所以在本發(fā)明中根據(jù)數(shù)據(jù)的統(tǒng)計特征自適應地生成特征向量的近似值。為達到此目的,在依照本發(fā)明的索引方法中,計算特征向量數(shù)據(jù)空間之內(nèi)的特征向量數(shù)據(jù)的統(tǒng)計分布(步驟102)。然后,使用統(tǒng)計分布估計邊界分布(步驟104)。接下來,將估計的邊界分布劃分為多個網(wǎng)格,其中處理每個網(wǎng)格中數(shù)據(jù)概率變?yōu)榫鶆?步驟106)。網(wǎng)格的個數(shù)由分配給維數(shù)的比特數(shù)確定。然后,使用劃分的網(wǎng)格索引特征向量數(shù)據(jù)空間(步驟108)。步驟108可以基于使用公知的向量近似(VA)文件索引方法來實現(xiàn)。
通過上述方法生成的近似值減少了具有密度分布單元的可能性。因此,索引特性得到提高。
這里,應該注意數(shù)據(jù)的邊界分布只能跟蹤多維分布的部分信息的事實。圖2說明了即使在各維上數(shù)據(jù)的邊界分布都是均勻的,但數(shù)據(jù)聯(lián)合分布仍舊是不均勻的而是已經(jīng)聚合的情況。參照圖2,在整個特征向量數(shù)據(jù)空間20內(nèi)各維數(shù)據(jù)的邊界分布是均勻的。但是,如果考慮到作為維數(shù)的屬性在不同的維中的數(shù)據(jù)相關性降低,并且圖象/視頻數(shù)據(jù)庫增加,仍然可以將通過跟蹤多維數(shù)據(jù)的統(tǒng)計特性來估計邊界分布作為有效的方法。
下面,將更加詳細地闡述實現(xiàn)本發(fā)明方法的方法。首先,i維上的數(shù)據(jù)的概率分布函數(shù)表示為pi(x)。通過假定各維上的數(shù)據(jù)是相互獨立的,則下文中描述的算法可以獨立地應用到各維。同樣如所述的,數(shù)據(jù)分布的均勻性實際上具有數(shù)據(jù)的不規(guī)則概率分布函數(shù),或者并不能由比如象高斯函數(shù)之類的選定函數(shù)來模擬。在本發(fā)明中,為了容忍數(shù)據(jù)分布的變化,使用高斯混合函數(shù)來模擬單維數(shù)據(jù)的概率分布函數(shù)。
首先,假定單維信號p(x)的概率分布函數(shù)如下定義p(x)=Σj=1Np(x|j)P(j)···(1)]]>這里,p(x|j)如下定義P(x|j)=12πσj2exp{-(x-μj)22σj2}···(2)]]>系數(shù)P(j)稱作混合參數(shù),其滿足0≤P(j)≤1的要求和下述公式Σj=1MP(j)=1···(3)]]>因此,在本實施例中,使用高斯函數(shù)的加權(quán)和來定義概率分布函數(shù)。那么,估計概率分布函數(shù)的任務轉(zhuǎn)化為參數(shù)估計的問題。這里,當必須估計的參數(shù)為j=1,...M和l=1,...N,以及v[l]為給定的數(shù)據(jù)集合時,獲得了使下式最大化的Φj。φ(φ1,...,φM)=Πl=0Np(v[l]|(φl,...,φM))···(4)]]>使用最大似然(EM)算法獲得參數(shù)。依照此算法,N個預定數(shù)據(jù)用作估計的輸入,并且參數(shù)是迭代估計的,在每次迭代中都使用所有的N個分配的數(shù)據(jù)。
用t表示迭代次數(shù),下面的等式用來更新估計參數(shù)。μjt+1=Σl=1Np(j|v[l])tv[l]Σl=1Np(j|v[l])t···(5)]]>(σj2)t+1=Σl=1Np(j|v[l])t(v[l]-μjt)2Σl=1Np(j|v[l])t···(6)]]>P(j)t+1=1NΣl=1Np(j|v[l])t···(7)]]>但是,如果數(shù)據(jù)的分布為不能歸類到高斯函數(shù)的其它值的奇異值,則會引起估計失效。
在此情況下,我們不得不令某個μ接近該值并令相應的σ2收斂到0以準確跟蹤該值。為了避免此異常問題,將一個非常小的值設定為較低的邊界,用于估計偏差。
為了解釋使用用于估計高斯混合函數(shù)參數(shù)的EM算法的效果,在圖3A中示出了特征向量數(shù)據(jù)空間內(nèi)的特征向量數(shù)據(jù)的頻譜圖,并在圖3B中示出了基于頻譜圖估計的概率分布函數(shù)。如圖3A所示,雖然數(shù)據(jù)的分布是不規(guī)則的并且不能用一些簡單形式的函數(shù)來模擬,但是使用高斯混合作為模擬工具和EM算法用以估計參數(shù),可以很好地模擬數(shù)據(jù)的概率分布函數(shù),如圖3B所示。
同時,使用公式5、6和7可以對N個預定數(shù)據(jù)估計參數(shù)。在大容量數(shù)據(jù)庫的情況下,與元素的總個數(shù)相比,N個通常只是很少的一部分。在真正的數(shù)據(jù)庫應用中,預定點數(shù)的估計需要更新。舉例來說,可能有這樣一種情況,為了更好地估計,必須使用較大部分的數(shù)據(jù)。另外,當數(shù)據(jù)庫為非靜態(tài)時,數(shù)據(jù)的統(tǒng)計特性會變化,從而必須重新估計概率分布函數(shù)。在任一種情況下,沒有必要將前一個估計的記憶全部刪除??紤]參數(shù)估計,當數(shù)據(jù)集合改變時,對策必須集中在跟蹤估計概率分布函數(shù)的變化。為此目的,在本發(fā)明中提出了能夠順序更新估計的算法。
若使用N個數(shù)據(jù)v[l]估計的參數(shù)集合{P(j)N,μjN,(σj2)N}]]>給定,在新數(shù)據(jù)v[N+1]加入時,則更新的參數(shù)集合可以按下面的公式計算。μjN+1=μjN+θjN+1(v[N+1]-μJN)···(8)]]>(σj2)N+1=(σj2)N+θjN+1[(v[N+1]-μjN)2-(σj2)N]···(9)]]>P(j)N+1=P(j)N+1N+1(P(j|v[N+1])-P(j)N)···(10)]]>在公式8和9中,關系式由下式實現(xiàn)。(θjN+1)-1=P(j|v[N])P(j|v[N+1])(θjN)-1+1···(11)]]>
為了評價使用在線估計的跟蹤特性,針對合成數(shù)據(jù)集合進行了實驗。數(shù)據(jù)集合的特征向量值示于圖4A。參照圖4A,數(shù)據(jù)集合包括5000個元素。在圖4B中示出了針對圖4A的數(shù)據(jù)集合的頻譜計算結(jié)果。將每個獨立的元素順序相加用于估計。然后,按照公式8、9和10計算參數(shù)。接下來,當一定數(shù)量的元素用于估計時,可以從估計的參數(shù)生成概率分布函數(shù)。
在圖4C、圖4D和圖4E中,示出了當用于估計的元素個數(shù)分別為1700、3400和5000時的估計概率分布函數(shù)。參照圖4C、圖4D和圖4E,當輸入數(shù)據(jù)的分布變化時,可以看出在線估計跟蹤得非常好。這里,一個必須注意的事實是在線估計的效率部分取決于選擇作為輸入的數(shù)據(jù)的方法。
舉例來說,當估計示于圖4A的數(shù)據(jù)的概率分布函數(shù)時,按照與索引數(shù)據(jù)相同的順序選擇數(shù)據(jù),然后獲得了如圖4E所示的一個估計的概率分布函數(shù)。也就是說在理想情況下,數(shù)據(jù)必須如此選擇以避免在數(shù)據(jù)上放置不合適的權(quán)重。
估計的概率分布函數(shù)稱作 非線性量化的目標是使用多個網(wǎng)格劃分概率分布函數(shù),以使每個網(wǎng)格覆蓋的面積相同。如果邊界點表示為c[l],則邊界點必須滿足下式的條件。∫c[l]c[l+1]p^(x)dx=12b∫c
c[2b]p^(x)dx···(12)]]>由一遍掃描使用此條件估計的概率分布函數(shù)來確定邊界點是可能的。舉例來說,所有N個點都聚合成2b簇,從而各維的邊界點在公式4中確定。同樣,通過使用公式12的計算,不僅可以非常有效地找到邊界點,而且可以避免距離計算的依賴性。
依照上述方法,可以更新概率分布函數(shù),此特征對于針對不規(guī)則的數(shù)據(jù)庫來保證滿意的索引非常重要。也就是說,每次當前一個估計與更新的估計不匹配時,就需要更新近似值。出于這個原因,必須基于概率分布函數(shù)估計的變化來計算決定什么時候更新近似值。同樣,由于使用概率分布函數(shù)構(gòu)造近似值的并行設計,用于更新近似值的計算可以針對每一維來定義。當前一個概率分布函數(shù)為 和更新的概率分布函數(shù)為 時,概率分布函數(shù)的變化的度量辦法可以按下式定義。ρ=∫(P^old(x)-P^new(x))2dx∫P^old(x)2dx···(13)]]>
在此,當ρ大于預定的閾值時,更新針對該維的近似值。
進行了用于評價包括34689幅航空照片圖象在內(nèi)的圖象數(shù)據(jù)庫的模擬實驗。首先,使用預定的用于提取紋理的方法來提取描述各幅圖象紋理特征的48維特征向量?;谔崛〉奶卣飨蛄繌恼麄€數(shù)據(jù)集合估計概率分布函數(shù)。圖5A和圖5B為說明使用常規(guī)索引方法和本發(fā)明的索引方法在第一步篩選和第二步篩選中所訪問的特征向量個數(shù)的對比圖。在圖5A中,曲線502表示使用本發(fā)明的自適應地生成VA文件的索引方法在第一篩選步驟中所訪問的特征向量個數(shù),曲線504表示使用常規(guī)的使用固定VA文件的索引方法在第一步篩選中所訪問的特征向量個數(shù)。在第一步篩選中所訪問的特征向量的個數(shù)也表示為N1的縱軸。
同樣,在圖5B中,曲線512表示使用本發(fā)明的自適應地生成VA文件的索引方法在第二篩選步驟中所訪問的特征向量個數(shù),曲線514表示使用常規(guī)的使用固定VA文件的索引方法在第二步篩選中所訪問的特征向量個數(shù)。在第二步篩選中所訪問的特征向量的個數(shù)也表示為N2的縱軸。將曲線502和504與曲線512和514相比較,可以看出使用本發(fā)明的自適應地生成VA文件的索引方法在第一步篩選和第二步篩選中所訪問的特征向量個數(shù),要比使用常規(guī)的使用固定VA文件的索引方法在第一步篩選和第二步篩選中所訪問的特征向量個數(shù)大許多。
本發(fā)明的索引方法可以寫成在個人計算機或服務器計算機上運行的程序。構(gòu)成程序的程序代碼和代碼段可以容易地由本技術(shù)領域的計算機程序員得到。該程序也可以存儲到計算機可讀的記錄介質(zhì)中。記錄介質(zhì)包括磁記錄介質(zhì)、光記錄介質(zhì)和載波介質(zhì)。
權(quán)利要求
1.一種檢索特征向量數(shù)據(jù)空間的方法,包括步驟(a)基于特征向量數(shù)據(jù)空間中特征向量數(shù)據(jù)的統(tǒng)計分布通過自適應地近似特征向量來檢索特征向量數(shù)據(jù)空間。
2.如權(quán)利要求1的方法,其中步驟(a)包括步驟(a-1)計算特征向量數(shù)據(jù)空間中特征向量數(shù)據(jù)的統(tǒng)計分布;(a-2)使用統(tǒng)計分布估計數(shù)據(jù)的邊界分布;(a-3)將估計的分布劃分為多個網(wǎng)格,其中在每個網(wǎng)格中處理數(shù)據(jù)的分布變?yōu)榫鶆颍缓?a-4)使用劃分的網(wǎng)格檢索特征向量數(shù)據(jù)空間。
3.如權(quán)利要求2的方法,在步驟(a-4)之前,進一步包括當新數(shù)據(jù)加入時基于前一個概率分布函數(shù)和更新的概率分布函數(shù)來更新網(wǎng)格的步驟。
4.如權(quán)利要求2的方法,其中步驟(a-4)包括使用向量近似(VA)文件檢索。
5.如權(quán)利要求2的方法,其中多個網(wǎng)格的數(shù)目由分配給該維的比特數(shù)來確定。
6.如權(quán)利要求2的方法,其中步驟(a-2)包括(a-2-1)使用預定分布函數(shù)的加權(quán)和來定義概率分布函數(shù);和(a-2-2)通過使用在步驟(a-2-1)中定義的概率分布函數(shù)估計預定參數(shù)來獲得估計的概率分布函數(shù)。
7.如權(quán)利要求6的方法,其中步驟(a-2-2)包括使用在步驟(a-2-1)中定義的概率分布函數(shù)基于最大似然算法通過每次都使用所有N個預定數(shù)據(jù)來估計預定參數(shù)而獲得估計的概率分布函數(shù)的步驟,其中N為一個正整數(shù)。
8.如權(quán)利要求6的方法,其中預定的分布函數(shù)為高斯函數(shù)。
9.如權(quán)利要求6的方法,其中在步驟(a-2-1)中包括假設單維信號的概率分布函數(shù)p(x)為 其中p(x|j)定義為p(x|j)=12πσj2exp{-(x-μj)22σj2},]]>并且混合參數(shù)P(j)滿足0≤P(j)≤1和Σj=1MP(j)=1]]>的單維信號概率分布函數(shù)的條件。
10.如權(quán)利要求6的方法,其中步驟(a-2-2)中包括通過找到使φ(φl,...,φM)=Πl=0NP(v[l]|(φl,...,φM)]]>最大的Φj來獲得被估計的概率分布函數(shù),其中將被估計的參數(shù)為j=1,...M和l=1,...N,以及v[l]為給定的數(shù)據(jù)集合。
11.如權(quán)利要求10的方法,其中在步驟(a-2-2)中進一步包括根據(jù)μjt+l=Σl=1Np(j|v[l]tv[l]Σl=1Np(j|v[l])t,]]>(σj2)t+1=Σl=1Np(j|[l])t(v[l]-μjt)2Σl=1Np(j|v[l]t]]>和P(j)l+1=1NΣl=1Np(j|v[l])t]]>來獲得被估計的參數(shù),其中t為代表迭代次數(shù)的正整數(shù)。
12.如權(quán)利要求5的方法,其中步驟(a-2-2)進一步包括步驟如果當使用N個數(shù)據(jù)v[l]估計的參數(shù)集合{p(j)N,μjN,(σj2)N}]]>給定時新數(shù)據(jù)v[N+l]加入,則通過計算μjN+1=μjN+θjN+1(v[N+1]-μjN).]]>(σj2)N+1=(σj2)N+θjN+1[(v[N+1]-μjN)2-(σj2)N],]]>P(j)N+1=P(j)N+1N+1(P(j|v[N+1])-P(j)N)]]>和(θjN+1)-1=P(j|v[N])P(j|v[N+1])(θjN)-1+1]]>來發(fā)現(xiàn)更新的參數(shù)集合。
13.如權(quán)利要求11的方法,其中步驟(a-2-2)進一步包括步驟對于各維,度量定義為ρ=∫(P^old(x)-P^new(x))2dx∫P^old(x)2dx]]>的概率分布函數(shù)的變化,其中前一個概率分布函數(shù)為 更新后的概率分布函數(shù)為 和如果ρ大于預定的閾值,則更新針對該維的近似值。
14.如權(quán)利要求2的方法,其中步驟(a-3)包括步驟劃分概率分布函數(shù),以使使用通過滿足條件的邊界點c[l]確定的多個網(wǎng)格時每個網(wǎng)格所覆蓋的面積∫c[l]c[l+1]P^(x)dx=12b∫c
c[2b]P^(x)dx]]>相同,其中估計概率分布函數(shù)為
全文摘要
提供了一種在特征向量數(shù)據(jù)空間之內(nèi)檢索特征向量的方法。用于檢索特征向量數(shù)據(jù)空間的方法包括步驟:(a)基于特征向量數(shù)據(jù)空間中特征向量數(shù)據(jù)的統(tǒng)計分布,自適應地形成特征向量的近似值。本發(fā)明的用于檢索特征向量數(shù)據(jù)空間的方法可以有效地檢索特征向量通常不是均勻分布的多維向量空間。該檢索特征向量數(shù)據(jù)空間的方法還具有一個優(yōu)點就是,當添加新的特征向量數(shù)據(jù)時可以方便地更新索引。
文檔編號G06F17/30GK1339730SQ0110370
公開日2002年3月13日 申請日期2001年2月9日 優(yōu)先權(quán)日2000年8月21日
發(fā)明者崔良林, B·S·曼朱納思, 吳澎 申請人:三星電子株式會社, 加利福尼亞大學董事會
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1