沖擊聲檢測裝置和沖擊聲檢測方法

文檔序號：10625476閱讀：661來源：國知局

沖擊聲檢測裝置和沖擊聲檢測方法
【專利摘要】本發(fā)明提供沖擊聲檢測裝置和沖擊聲檢測方法。該沖擊聲檢測裝置包括：被構造為獲得音頻輸入的單元；被構造為從獲得的音頻中提取至少一種特征，并且基于提取的特征，將獲得的音頻分割為至少一個音頻段的單元；被構造為基于預先生成的聲音模型和提取的特征，從音頻段中識別第一沖擊聲的單元；被構造為在至少一部分音頻段內檢測音頻段的起始點，并且輸出起始點的位置和起始點的能量相關特征的單元；被構造為基于預先生成的起始點模型和起始點的能量相關特征，確定起始點的至少兩種類型的單元；以及被構造為基于識別的沖擊聲和確定的起始點的類型，從音頻段中確定第二沖擊聲的單元。根據(jù)本發(fā)明，通過使用起始點的信息，能夠改善沖擊聲檢測性能。
【專利說明】
沖擊聲檢測裝置和沖擊聲檢測方法
技術領域
[0001] 本發(fā)明設及聲音檢測，尤其設及沖擊聲檢測裝置和沖擊聲檢測方法。
【背景技術】
[0002] 現(xiàn)在，聲音檢測技術在安全監(jiān)控中得到了廣泛應用，例如檢測給定環(huán)境中的音頻異常、檢測在給定設備（例如多功能打印機（MFP))正在工作時產(chǎn)生的音頻異常。
[0003] 通常，聲音檢測系統(tǒng)包括兩個主要部分，即分割部分和識別部分。首先，在分割部分中，聲音檢測系統(tǒng)使用本領域技術人員熟悉的任何種類的語音端點檢測（VAD)算法，將音頻輸入分割為音頻段。然后，在識別部分中，聲音檢測系統(tǒng)基于由訓練數(shù)據(jù)通過使用本領域技術人員熟悉的任何監(jiān)督和/或無監(jiān)督方式生成的預先生成的聲音模型，識別從分割部分獲得的音頻段。例如，美國專利申請US2012/0185418公開了一種用于檢測異常音頻事件的系統(tǒng)和方法，并且公開了一種用于針對異常音頻事件檢測訓練聲音模型的無監(jiān)督方式。該方法主要包括W下兩個階段：第一階段是學習階段，即在諸如聲學參數(shù)的提取和聲學分割的預處理操作之后，將音頻段分組到各個類中，然后，基于音頻段的分類學習統(tǒng)計模型；第二階段是使用階段，即在諸如聲學參數(shù)的提取和聲學分割的預處理操作之后，使用在第一階段中生成的統(tǒng)計模型，檢測異常事件。
[0004] 由于沖擊聲具有W下屬性，即沖擊聲的能量在初始音頻帖中快速增大，而在結束音頻帖中緩慢減小，因此，諸如槍擊聲檢測、玻璃破碎聲檢測和爆炸聲檢測的沖擊聲檢測是聲音檢測技術中的特殊情況。然而，在上面提及的諸如美國專利申請US2012/0185418的相關技術中，識別部分僅使用從分割部分獲得的音頻段的特征（例如音頻段的邊界信息），而沒有考慮各個音頻段的初始音頻帖的屬性。因此，使用現(xiàn)有聲音檢測方法的沖擊聲檢測性能低；尤其由于環(huán)境噪聲，誤警率高。

【發(fā)明內容】

[0005] 因此，鑒于上面在【背景技術】部分中的敘述，本發(fā)明要解決的技術問題是在檢測沖擊聲時，除了使用音頻段的特征之外，充分利用沖擊聲的能量在各個音頻段的初始音頻帖中快速增大的信息，使得能夠通過考慮各個音頻段的初始音頻帖的屬性，來改善沖擊聲檢測性能。
[0006] 根據(jù)本發(fā)明，提供一種沖擊聲檢測裝置，其包括：音頻獲得單元，被構造為獲得音頻輸入；預處理單元，被構造為從所獲得的音頻中提取至少一種特征，并且基于所提取的特征，將所獲得的音頻分割為至少一個音頻段；沖擊聲識別單元，被構造為基于預先生成的聲音模型和與所述音頻段相對應的所提取的特征，從所述音頻段中識別第一沖擊聲；起始點檢測單元，被構造為在至少一部分所述音頻段內檢測音頻段的起始點，并且輸出所述起始點的位置和所述起始點的能量相關特征；起始點分類單元，被構造為基于預先生成的起始點模型和所述起始點的所述能量相關特征，確定所述起始點的至少兩種類型；W及沖擊聲確定單元，被構造為基于從所述沖擊聲識別單元輸出的所述第一沖擊聲和從所述起始點分類單元輸出的所確定的所述起始點的類型，從所述音頻段中確定第二沖擊聲。
[0007] 如上所述，在檢測沖擊聲時，除了使用從上述預處理操作中獲得的音頻段的特征之外，本發(fā)明還考慮使用音頻段的起始點的信息，例如起始點的位置和起始點的能量相關特征。在本發(fā)明中，將起始點視為相應的音頻段中的能量變化最大的點，其可W提供不同沖擊聲的特有信息，例如對于不同的沖擊聲來說，在初始音頻帖中快速增大的沖擊聲的能量的不同的增大模式。因此，使用起始點的信息能夠改善沖擊聲檢測性能。
[0008] 通過W下參照附圖的描述，本發(fā)明的其他特征和優(yōu)點將變得清楚。
【附圖說明】
[0009] 包含在說明書中并構成說明書的一部分的附圖例示了本發(fā)明的實施例，并且與文字說明一起用來解釋本發(fā)明的原理。
[0010] 圖1是示出應用根據(jù)本發(fā)明的沖擊聲檢測技術的安全監(jiān)控系統(tǒng)的整體構成的框圖。 W11]圖2是例示根據(jù)本發(fā)明的示例性實施例的沖擊聲檢測裝置的示例性控制配置的框圖。
[0012] 圖3是例示根據(jù)本發(fā)明的第一實施例的沖擊聲檢測裝置的示例性功能配置的框圖。
[0013] 圖4示意性地示出了根據(jù)本發(fā)明的示例性實施例的檢測音頻段的起始點的處理的流程圖。
[0014] 圖5示意性地示出了根據(jù)本發(fā)明的示例性實施例的檢測音頻段的起始點的處理的另一流程圖。
[0015] 圖6示意性地示出了根據(jù)本發(fā)明的示例性實施例的生成起始點模型的方法的流程圖。
[0016] 圖7示意性地示出了根據(jù)本發(fā)明的示例性實施例的生成起始點相關聲音模型的方法的流程圖。
[0017] 圖8是例示根據(jù)本發(fā)明的第二實施例的沖擊聲檢測裝置的示例性功能配置的框圖。
[0018] 圖9是例示根據(jù)本發(fā)明的第Ξ實施例的沖擊聲檢測裝置的示例性功能配置的框圖。
[0019] 圖10是例示根據(jù)本發(fā)明的第四實施例的沖擊聲檢測裝置的示例性功能配置的框圖。
[0020] 圖11是例示根據(jù)本發(fā)明的第五實施例的沖擊聲檢測裝置的示例性功能配置的框圖。
[0021] 圖12示意性地示出了根據(jù)本發(fā)明的實施例的沖擊聲檢測方法的流程圖。
[0022] 圖13示意性地示出了根據(jù)本發(fā)明的實施例的沖擊聲檢測方法的另一流程圖。
【具體實施方式】
[0023] 下面參照附圖詳細描述本發(fā)明的示例性實施例。應當注意，下面的描述實質上僅僅是說明性和示例性的，而絕不旨在限制本發(fā)明及其應用或用途。除非另外具體說明，否則在實施例中陳述的部件和步驟、數(shù)字表達式和數(shù)值的相對布置不限制本發(fā)明的范圍。另外，不詳細討論本領域技術人員已知的技術、方法和設備，但是在適當?shù)那闆r下，運些技術、方法和設備旨在作為本說明書的一部分。
[0024] 請注意，在附圖中類似的附圖標記和字母指代類似的項，因此一旦在一個圖中定義了一個項，則不需要針對下面的圖對其進行討論。陽0巧](安全監(jiān)控系統(tǒng)）
[00%] 圖1是示出應用根據(jù)本發(fā)明的沖擊聲檢測技術的安全監(jiān)控系統(tǒng)10的整體構成的框圖。
[0027] 如圖1所示，安全監(jiān)控系統(tǒng)10可W包括音頻傳感器11、沖擊聲檢測裝置100 W及諸如PC型設備12和警報設備13的警報裝置。
[0028] 音頻傳感器11接收聲音、存在于要監(jiān)控的區(qū)域中的音頻噪聲、要監(jiān)控的設備產(chǎn)生的音頻異?；蛘呦ＭM行可聽事件分析的信息。向沖擊聲檢測裝置100發(fā)送在音頻傳感器 11上接收到的音頻數(shù)據(jù)。沖擊聲檢測裝置100根據(jù)下文中將參照圖2~13詳細描述的本發(fā)明的實施例，檢測音頻數(shù)據(jù)內的沖擊聲。然后，沖擊聲檢測裝置100向警報裝置輸出檢測到的沖擊聲，例如經(jīng)由網(wǎng)絡（未示出）向PC型設備12輸出檢測到的沖擊聲，W向用戶和/ 或操作者顯示結果，或者向警報設備13輸出檢測到的沖擊聲，W向用戶和/或操作者發(fā)出警報或者警告有危險。
[0029] 如上所述，安全監(jiān)控系統(tǒng)10可W用來檢測諸如超市的給定環(huán)境中的音頻異常，并且可W用來檢測在諸如MFP的設備正在工作時產(chǎn)生的音頻異常。此外，W MFP為例，當使用安全監(jiān)控系統(tǒng)10監(jiān)控在MFP的工作進展期間是否發(fā)生了諸如卡紙的故障時，音頻傳感器11 和警報設備13可W是MFP的現(xiàn)有部件，而沖擊聲檢測裝置100可W通過硬件和/或軟件來實現(xiàn)。在一種實現(xiàn)方式中，可W將能夠執(zhí)行沖擊聲檢測的功能模塊或者功能裝置并入MFP 中，由此MFP將具有相應的安全監(jiān)控功能。在另一種實現(xiàn)方式中，可W將能夠執(zhí)行沖擊聲檢測的軟件程序存儲在MFP的存儲設備中，由此MFP也將具有相應的安全監(jiān)控功能。
[0030] (沖擊聲檢測裝置）
[0031] 圖2是例示根據(jù)本發(fā)明的示例性實施例的圖1所示的沖擊聲檢測裝置100的示例性控制配置的框圖。沖擊聲檢測裝置100可W包括中央處理單元（CPU) 101、隨機存取存儲器（RAM) 102、只讀存儲器（ROM) 103、硬盤104、輸入設備105、輸出設備106和網(wǎng)絡接口 107，它們經(jīng)由系統(tǒng)總線108彼此可通信地連接。
[0032] CPU 101可W是任何合適的可編程控制設備，其通過執(zhí)行存儲在ROM 103或硬盤 104中的各種應用程序，能夠執(zhí)行下文中要描述的各種功能。RAM 102用于臨時存儲從ROM 103或硬盤104載入的程序或數(shù)據(jù)，并且還用作CPU 101執(zhí)行各種程序的空間。硬盤104可 W存儲多種信息，例如操作系統(tǒng)（0巧、各種應用、控制程序、由用戶、操作者和/或制造商預先生成或訓練的數(shù)據(jù)和模型，其中，模型例如可W是下文中將詳細描述的起始點模型、聲音模型和/或起始點相關聲音模型。此外，可W將由制造商預先訓練的模型存儲在ROM 103 或硬盤104中。
[0033] 輸入設備105可W是輸入接口，其可W接收例如從圖1所示的音頻傳感器11輸出的音頻數(shù)據(jù)。輸出設備106可W是輸出接口，其可W向警報裝置輸出檢測到的沖擊聲，例如經(jīng)由網(wǎng)絡（未示出）向PC型設備12輸出檢測到的沖擊聲，或者向圖1所示的警報設備13 輸出檢測到的沖擊聲。
[0034] 網(wǎng)絡接口 107提供用于將沖擊聲檢測裝置100連接到網(wǎng)絡（未示出）的接口。例如，沖擊聲檢測裝置100經(jīng)由網(wǎng)絡接口 107與經(jīng)由網(wǎng)絡連接的其它電子設備（例如圖1所示的PC型設備12)進行數(shù)據(jù)通信（例如發(fā)送檢測到的沖擊聲）。作為另選方案，可W對沖擊聲檢測裝置100設置無線接口，W進行無線數(shù)據(jù)通信。系統(tǒng)總線108可W提供用于向、從 CPU10URAM 102、R0M 103、硬盤104、輸入設備105、輸出設備106和網(wǎng)絡接口 107等或者在它們之間彼此傳輸數(shù)據(jù)的數(shù)據(jù)傳輸路徑。雖然稱為總線，但是系統(tǒng)總線108不局限于任何特定數(shù)據(jù)傳輸技術。陽03引（第一實施例）
[0036] 圖3是例示根據(jù)本發(fā)明的第一實施例的與由沖擊聲檢測裝置100進行的沖擊聲檢測相關的示例性功能配置的框圖。在第一實施例中，本發(fā)明使用起始點的分類結果來優(yōu) 化沖擊聲識別的結果，其中，起始點被視為相應的音頻段中的能量的變化最大的點。當CPU 101執(zhí)行存儲在R0M103和/或硬盤104中的程序時，實現(xiàn)下面的功能單元。
[0037] 如圖3所示，輸入設備105可W接收例如從圖1所示的音頻傳感器11輸出的音頻數(shù)據(jù)。
[0038] 音頻獲得單元301獲得來自輸入設備105的音頻輸入。
[0039] 預處理單元302首先從所獲得的從音頻獲得單元301輸出的音頻中，提取至少一種特征。所提取的特征可W是W下本領域技術人員已知的特征中的至少一個：例如線性預測系數(shù)（LPC)、過零率狂CR)、梅爾頻率倒譜系數(shù)（MFCC)、譜功率、子帶能量、子帶能量的 Teager能量算子（TE0)等。然后，預處理單元302例如使用本領域技術人員熟悉的任意種類的VAD算法，基于所提取的特征，將所獲得的音頻分割為至少一個音頻段。作為另選方案，也可W在兩個單獨的單元中執(zhí)行上述提取操作和分割操作。
[0040] 沖擊聲識別單元303從預處理單元302接收音頻段和提取的特征，并且基于預先生成的聲音模型307和與音頻段相對應的提取的特征，從音頻段中識別沖擊聲（即第一沖擊聲）。對于各個音頻段，沖擊聲識別單元303計算其與各個聲音模型相對應的似然度得分，并且按照似然度得分的順序選擇聲音。
[0041] 例如，一個音頻段的似然度得分可W被表示為Pli= P(SMi|feature(l~M))，其意為該音頻段與第i個聲音模型相對應的似然度得分為Pli，其中，i是聲音模型的索引， fe￡Tture(l~M)是與該音頻段相對應的提取的特征。
[0042] 聲音模型307可W由用戶、操作者和/或制造商，基于已錄音頻和與已錄音頻相對應的音頻標簽預先生成或訓練，并且存儲在圖2中的沖擊聲檢測裝置100的ROM 103或硬盤104中。
[0043] 作為優(yōu)選的可選解決方案，聲音模型307可W是根據(jù)下文中將參照圖7詳細描述的方法生成的起始點相關聲音模型。
[0044] 起始點檢測單元304接收從預處理單元302輸出的所有音頻段，并且檢測音頻段的起始點并輸出起始點的位置和起始點的能量相關特征。在一種實現(xiàn)方式中，起始點檢測單元304檢測各個音頻段的起始點，并且輸出起始點的位置和起始點的能量相關特征。作為優(yōu)選解決方案，下文中將參照圖4~5詳細描述檢測音頻段的起始點的方法/處理。陽045] 起始點分類單元305從起始點檢測單元304接收起始點的能量相關特征，并且基于預先生成的起始點模型308和起始點的能量相關特征，確定起始點的至少兩種類型。起始點模型308可W由用戶、操作者和/或制造商，基于已錄音頻和與已錄音頻相對應的音頻標簽預先生成或訓練，并且存儲在圖2中的沖擊聲檢測裝置100的ROM 103或硬盤104中。作為優(yōu)選解決方案，起始點模型308可W根據(jù)下文中將參照圖6詳細描述的方法生成。
[0046] 起始點的至少兩種類型可W是沖擊聲相關類型和非沖擊聲相關類型。此外，沖擊聲相關類型可W包括多于一種，也就是說，沖擊聲相關類型可W包括多于一個的特定沖擊聲相關類型，例如槍擊聲相關類型、玻璃破碎聲相關類型、爆炸聲相關類型等。類似地，非沖擊聲相關類型也可W包括多于一種。應當注意，只要容易將非沖擊聲相關類型與沖擊聲相關類型區(qū)分，則起始點的類型的種類是多少不重要。
[0047] 同時，對于各個音頻段的起始點，起始點分類單元305計算其與各個起始點模型相對應的似然度得分。例如，一個音頻段的起始點的似然度得分可W被表示為P2,= P (SPj I RTE0 (π〇)，其意為該起始點與第j個起始點模型相對應的似然度得分是P2j，其中，j 是起始點模型的索引，RTEOOiO是下文中將參照圖4~5詳細描述的起始點的能量相關特征。
[0048] 沖擊聲確定單元306基于從沖擊聲識別單元303輸出的第一沖擊聲和從起始點分類單元305輸出的確定的起始點的類型，從音頻段中確定沖擊聲（即第二沖擊聲）。
[0049] 更具體來說，沖擊聲確定單元306通過將由沖擊聲識別單元303計算的第一沖擊聲的似然度得分，與由起始點分類單元305計算的確定的起始點的類型的似然度得分綜合，來確定第二沖擊聲。
[0050] 例如，在一種實現(xiàn)方式中，對于一個音頻段，可W根據(jù)方程式：Pi=Wi沖li+聽沖2來計算綜合似然度得分，其中，i是聲音模型的索引，和W 2是可W基于統(tǒng)計信息和/或本領域中的經(jīng)驗設置的預先設置的權重。另一方面，當與似然度得分Pli相對應的聲音模型是沖擊聲相關類型時，似然度得分P2可W根據(jù)與沖擊聲相關類型相對應的似然度得分P2,來確定，例如，P2是與沖擊聲相關類型相對應的似然度得分P2,的平均得分，或者P2是與沖擊聲相關類型相對應的似然度得分P2,中的最大得分。當與似然度得分P1 1相對應的聲音模型是非沖擊聲相關類型時，似然度得分P2可W根據(jù)與非沖擊聲相關類型相對應的似然度得分P2,來確定。然后，沖擊聲確定單元306根據(jù)綜合似然度得分P 1中的最大得分，確定該音頻段是否是第二沖擊聲。另一方面，當與似然度得分Pli相對應的聲音模型是特定沖擊聲相關類型（例如槍擊聲相關類型）時，似然度得分P2可W根據(jù)與上述特定沖擊聲相關類型 (即槍擊聲相關類型）相對應的似然度得分P2,來確定。然后，沖擊聲確定單元306根據(jù)綜合似然度得分Pi中的最大得分，確定該音頻段的最終特定聲音。
[0051] 另外，對于一些極端情形，例如音頻段的能量的變化非常小和/或近似為零，起始點檢測單元304可能針對該音頻段檢測到錯誤或者無效的起始點，其意為將該音頻段判斷為沖擊聲的可能性非常小。因此，一方面，沖擊聲確定單元306可W直接確定該音頻段是非沖擊聲。或者另一方面，如上面所描述的，可W根據(jù)方程式：Pi= W 1沖li+W2沖2來計算綜合似然度得分。如果起始點檢測單元304檢測到的該音頻段的起始點是錯誤的點，則根據(jù)與沖擊聲相關類型相對應的似然度得分P2,確定的似然度得分P2可能非常?。ɡ缃茷?零），因此綜合似然度得分Pi中的最大得分對應于沖擊聲的可能性非常小，而該音頻段是非沖擊聲的可能性相對更大。由此，沖擊聲確定單元306將該音頻段確定為沖擊聲的可能性非常小。也就是說，在運種情形下，基本上確定該音頻段是非沖擊聲。
[0052] 最后，輸出設備106接收由沖擊聲確定單元306確定的第二沖擊聲，并且向警報裝置輸出第二沖擊聲，例如經(jīng)由網(wǎng)絡（未示出）向PC型設備12輸出第二沖擊聲，或者向圖1 所示的警報設備13輸出第二沖擊聲。陽〇5引（起始點檢測）
[0054] 如在圖3中所描述的，下面描述上述由圖3中的起始點檢測單元304操作的檢測音頻段的起始點的方法/處理。
[0055] 作為優(yōu)選解決方案，圖4示意性地示出了根據(jù)本發(fā)明的示例性實施例的檢測音頻段的起始點的處理的流程圖，其中，相應的程序存儲在圖2中的ROM 103和/或硬盤104中，并且當CPU 101執(zhí)行相應的程序時，在CPU 101中實現(xiàn)相應的程序。
[0056] 對于從圖3中的預處理單元302輸出的一個音頻段，首先，起始點檢測單元304 針對該音頻段中的音頻帖，計算相對Teager能量算子能量（TE0)能量。在文獻"Voice Activity Detection Based on Noise Feature Space NR and TEO Energy"by Xiao Lei, Journal of Kunming University of Science and Technology(Science and Technology) Vol. 35 No. 3,化n. 2010中，公開了針對TEO的相應描述。下文中將描述針對相對TEO(RTEO)能量的相應描述。
[0057] 在一種實現(xiàn)方式中，RTE0能量可W根據(jù)下面的圖4所示的步驟S410至S430來計算。
[0058] 如圖4所示，在子帶能量計算步驟S410中，起始點檢測單元304針對音頻段中的各個音頻帖計算子帶能量。更具體來說，起始點檢測單元304基于諸如傅立葉變換方法的現(xiàn)有譜分析方法，計算子帶能量，并且可W將計算的子帶能量表示為SBE (m，k)，其中，m是音頻段中的音頻帖的索引，并且k是子帶的索引。子帶的總數(shù)可W根據(jù)本領域中的經(jīng)驗和 /或在實際應用中的要求預先設置。陽059] 在TE0能量計算步驟S420中，起始點檢測單元304通過計算相應音頻帖的子帶能量的變化，來計算各個音頻帖的TE0能量。由于基于計算的子帶能量來計算TE0能量，因此TE0能量也可W被視為子帶TE0能量。更具體來說，可W將計算的TE0能量表示為 TE0(m，k)，并且起始點檢測單元304例如可W根據(jù)下面的方程式來計算TE0能量：
[0060] TE0 (m, k) = SBE2 (m, k) -S邸(m+1，k)巧邸(m-1，k)
[0061] 其中，該方程式意為子帶TE0(m，k)可W通過對從子帶能量計算步驟S410輸出的各個計算的子帶能量SBE(m, k)應用TE0而獲得。
[0062] 在RTE0能量計算步驟S430中，起始點檢測單元304通過計算相應音頻帖的TE0 能量的變化，來計算各個音頻帖的RTE0能量。更具體來說，可W將計算的RTE0能量表示為 RTE0(m，k)，其描述在音頻帖（1~M)期間，音頻帖（m)的第k個子帶TE0能量相對于其它音頻帖的子帶TE0能量的相關突出程度。例如，上述其它音頻帖可W是音頻帖（m)周圍的所有音頻帖、音頻帖（m)之前的音頻帖等。并且起始點檢測單元304例如可W根據(jù)下面的方程式來計算RTE0能量：
[0063]
[0064] RTE0(m, k) = 0 if RTE0(m, k) < 0
[0M5] 其中，n也是音頻段中的音頻帖的索引，M是音頻段中的音頻帖的總數(shù)。
[0066] 然后，在計算RTE0能量之后，起始點檢測單元304基于計算的RTE0能量，計算音頻帖的相對突出度（relative outstanding metrics)。在一種實現(xiàn)方式中，如圖4所示，在距離計算步驟S440中，起始點檢測單元304基于從RTE0能量計算步驟S430輸出的相應音頻帖的計算的RTE0能量，計算各個音頻帖的相對突出度。更具體來說，可W將計算的相對突出度表示為D(m)，并且起始點檢測單元304可W使用諸如均方根尺度（RM巧的現(xiàn)有模塊測量算法，來計算相對突出度。例如，起始點檢測單元304可W根據(jù)下面的方程式來計算相對突出度：
[0067]
[0068] 其中，該方程式指示使用MS模塊來測量尺度。 W例最后，如圖4所示，在起始點確定步驟S450中，起始點檢測單元304將相對突出度最大的音頻帖的位置確定為該音頻段的起始點，并且記錄相應音頻帖的位置作為起始點的位置，并記錄相應音頻帖的RTE0能量作為起始點的能量相關特征，其中，起始點的位置可 W表示為上述m，并且起始點的能量相關特征可W表示為上述RTEOOiO。
[0070] 應當注意，可W在圖3中的起始點檢測單元304中構造各個單元，來進行圖4中的流程圖所示的各個步驟。例如，起始點檢測單元304可W包括W下單元：陽071] RTE0能量計算單元，被構造為計算音頻段中的音頻帖的RTE0能量；
[0072] 距離計算單元，被構造為基于計算的RTE0能量，計算音頻帖的相對突出度；W及陽073] 起始點確定單元，被構造為將相對突出度最大的音頻帖的位置確定為起始點，并且記錄相應音頻帖的位置作為起始點的位置，并記錄相應音頻帖的RTE0能量作為起始點的能量相關特征。
[0074] 作為另一優(yōu)選解決方案，圖5示意性地示出了根據(jù)本發(fā)明的示例性實施例的檢測音頻段的起始點的處理的另一流程圖，其中，相應的程序存儲在圖2中的ROM 103和/或硬盤104中，并且當CPU 101執(zhí)行相應的程序時，在CPU 101中實現(xiàn)相應的程序。
[00巧]如圖5所示，首先，計算音頻段中的音頻帖的RTE0能量的步驟（即步驟S410~ S430)與圖4所示的相應的步驟相同，因此運里不重復對步驟S410~S430的詳細描述。陽076] 其次，起始點檢測單元304使用現(xiàn)有特征變換方法，將音頻帖的RTE0能量轉換為關鍵TE0能量。在一種實現(xiàn)方式中，如圖5所示，在變換步驟S510中，起始點檢測單元304 使用諸如主成分分析（PCA)、線性判別分析（LDA)、Relief算法等的現(xiàn)有特征變換方法，將各個音頻帖的RTE0能量轉換為關鍵TE0能量。更具體來說，可W將關鍵TE0能量表示為 RWTEO(m)，并且起始點檢測單元304可W根據(jù)下面的方程式來計算關鍵TE0能量：
[0077] RWTE0 (m) = Transfer (RTEO) = W*RTE0 (m)
[0078] 其中，W是根據(jù)上述特征變換方法生成的預先生成的特征變換矩陣。
[0079] 第Ξ，在計算關鍵TE0能量之后，起始點檢測單元304基于關鍵TE0能量，計算音頻帖的相對突出度。在一種實現(xiàn)方式中，如圖5所示，在距離計算步驟S520中，起始點檢測單元304基于相應音頻帖的關鍵TE0能量，計算各個音頻帖的相對突出度。
[0080] 最后，如圖5所示，在起始點確定步驟S530中，起始點檢測單元304將相對突出度最大的音頻帖的位置確定為起始點，并且記錄相應音頻帖的位置作為起始點的位置，并記錄相應音頻帖的關鍵TE0能量作為起始點的能量相關特征，其中，起始點的位置可W表示為上述m，并且起始點的能量相關特征可W表示為上述RWTEOOiO。由于步驟S520~S530 與圖4所示的步驟S440~S450類似，因此運里不重復對步驟S520~S530的詳細描述。陽081] 如上所述，應當注意，可W在圖3中的起始點檢測單元304中構造各個單元，來進行圖5中的流程圖所示的各個步驟。例如，除了上述RTE0能量計算單元、上述距離計算單元和上述起始點確定單元之外，起始點檢測單元304還可W包括W下單元：
[0082] 變換單元，被構造為使用現(xiàn)有特征變換方法，將音頻帖的RTE0能量轉換為關鍵 TE0能量；并且其中，
[0083] 上述距離計算單元基于關鍵TE0能量，計算音頻帖的相對突出度；并且上述起始點確定單元將相對突出度最大的音頻帖的位置確定為起始點，并且記錄相應音頻帖的位置作為起始點的位置，并記錄相應音頻帖的關鍵TE0能量作為起始點的能量相關特征。
[0084] (起始點模型生成）
[00化]如在圖3中所描述的，下面描述上述用于生成由圖3中的起始點分類單元305使用的起始點模型308的方法。
[0086] 作為優(yōu)選解決方案，圖6示意性地示出了根據(jù)本發(fā)明的示例性實施例的用于生成圖3所示的起始點模型308的方法的流程圖，其中，可W將相應的程序存儲在圖2中的ROM 103和/或硬盤104中，并且當CPU 101執(zhí)行相應的程序時，在CPU 101中實現(xiàn)相應的程序。
[0087] 如圖6所示，在步驟S610中，圖2所示的沖擊聲檢測裝置100的輸入設備105接收可W由用戶、操作者和/或制造商輸入的已錄音頻和與已錄音頻相對應的音頻標簽，然后輸入設備105向CPU 101提供已錄音頻和與已錄音頻相對應的音頻標簽。
[0088] 在步驟S620中，CPU 101首先從所獲得的已錄音頻中提取至少一種特征。所提取的特征可W是上述諸如1?(：、2〇?、1。〇：、譜功率、子帶能量、子帶能量的了60等的特征中的至少一個。然后，CPU 101例如使用本領域技術人員熟悉的任何種類的VAD算法，基于所提取的特征，將所獲得的已錄音頻分割為至少一個已錄音頻段。
[0089] 在步驟S630中，CPU 101檢測已錄音頻段的起始點，并且輸出起始點的位置和起始點的能量相關特征。在一種實現(xiàn)方式中，CPU 101檢測各個已錄音頻段的起始點，并且輸出起始點的位置和起始點的能量相關特征。除了將音頻段改變?yōu)橐唁浺纛l段之外，檢測一個已錄音頻段的起始點的詳細操作與參照上述圖4~5描述的相應內容相同，因此運里不重復對步驟S630的詳細描述。如上所述，可W將起始點的位置表示為m%并且可W將起始點的能量相關特征表示為RTEOOiO或RWTEOOiO。
[0090] 在步驟S640中，CPU 101使用諸如K均值聚類算法的現(xiàn)有聚類算法，基于與對應于起始點的已錄音頻段相關的音頻標簽和起始點的能量相關特征，將從步驟S630中檢測到的起始點聚類到至少兩種類型中。在聚類操作期間，起始點的至少兩種類型可W是沖擊聲相關類型和非沖擊聲相關類型。此外，如上所述，沖擊聲相關類型可W包括多于一個的特定沖擊聲相關類型，例如槍擊聲相關類型、玻璃破碎聲相關類型、爆炸聲相關類型等。另外，對于一個特定沖擊聲，起始點的位置和能量相關特征在不同的環(huán)境下是不同的，因此可W 基于起始點的屬性進一步細分特定沖擊聲相關類型。W槍擊聲為例，可W將上述槍擊聲相關類型進一步細分為與第一種類型的起始點相對應的第一槍擊聲相關類型、與第二種類型的起始點相對應的第二槍擊聲相關類型等。類似地，如上所述，非沖擊聲相關類型也可W包括多于一種。應當注意，只要容易將非沖擊聲相關類型與沖擊聲相關類型區(qū)分，則起始點的類型的種類是多少不重要。
[0091] 然后，在步驟S650中，CPU 101使用諸如期望最大化（EM)算法的現(xiàn)有模型訓練方法，根據(jù)從步驟S630中獲得的起始點的能量相關特征和從步驟S640中獲得的起始點的聚類類型，生成起始點模型。例如，生成的起始點模型可W是高斯混合模型（GMM)、隱馬爾可夫模型（HMM)、人工神經(jīng)網(wǎng)絡（ANN)模型或支持向量機（SVM)模型，起始點的能量相關特征可 W是上述RTEOOiO或RWTEOOiO，并且起始點的聚類類型可W是上述沖擊聲相關類型和非沖擊聲相關類型。
[0092] 最后，CPU 101可W將生成的起始點模型存儲在圖2中的沖擊聲檢測裝置100的 ROM 103或硬盤104中。
[0093] (起始點相關聲音模型生成）
[0094] 如在圖3中所描述的，可W由沖擊聲識別單元303使用的聲音模型307可W是起始點相關聲音模型。下面描述上述生成起始點相關聲音模型的方法。
[0095] 作為優(yōu)選解決方案，圖7示意性地示出了根據(jù)本發(fā)明的示例性實施例的生成可W 由圖3中的沖擊聲識別單元303使用的起始點相關聲音模型的方法的流程圖，其中，相應的程序存儲在圖2中的ROM 103和/或硬盤104中，并且當CPU 101執(zhí)行相應的程序時，在 CPU 101中實現(xiàn)相應的程序。
[0096] 如圖7所示，在步驟S710中，圖2所示的沖擊聲檢測裝置100的輸入設備105接收可W由用戶、操作者和/或制造商輸入的已錄音頻和與已錄音頻相對應的音頻標簽，然后輸入設備105向CPU 101提供已錄音頻和與已錄音頻相對應的音頻標簽。
[0097] 在步驟S720中，CPU 101首先從所獲得的已錄音頻中提取至少一種特征。所提取的特征可W是上述諸如1?(：、2〇?、1。〇：、譜功率、子帶能量、子帶能量的了60等的特征中的至少一個。然后，CPU 101例如使用本領域技術人員熟悉的任何種類的VAD算法，基于所提取的特征，將所獲得的已錄音頻分割為至少一個已錄音頻段。陽09引在步驟S730中，CPU 101檢測已錄音頻段的起始點，并且輸出起始點的位置和起始點的能量相關特征。在一種實現(xiàn)方式中，CPU 101檢測各個已錄音頻段的起始點，并且輸出起始點的位置和起始點的能量相關特征。除了將音頻段改變?yōu)橐唁浺纛l段之外，檢測一個已錄音頻段的起始點的詳細操作與參照上述圖4~5描述的相應內容相同，因此運里不重復對步驟S730的詳細描述。如上所述，可W將起始點的位置表示為m%并且可W將起始點的能量相關特征表示為RTEOOiO或RWTEOOiO。
[0099] 在步驟S740中，CPU 101基于從步驟S730中獲得的起始點的能量相關特征和根據(jù) 在圖6中描述的方法生成的預先生成的起始點模型，確定起始點的至少兩種類型。如上所述，起始點的至少兩種類型可W是沖擊聲相關類型和非沖擊聲相關類型，并且起始點的能量相關特征可W是RTEOOif)或RWTEOOiO。此外，如上所述，沖擊聲相關類型可W包括多于一個的特定沖擊聲相關類型，例如槍擊聲相關類型、玻璃破碎聲相關類型、爆炸聲相關類型等。另外，對于一個特定沖擊聲，起始點的位置和能量相關特征在不同的環(huán)境下是不同的，因此可W基于起始點的屬性進一步細分特定沖擊聲相關類型。W槍擊聲為例，可W將上述槍擊聲相關類型進一步細分為與第一種類型的起始點相對應的第一槍擊聲相關類型、與第二種類型的起始點相對應的第二槍擊聲相關類型等。類似地，如上所述，非沖擊聲相關類型也可W包括多于一種。應當注意，只要容易將非沖擊聲相關類型與沖擊聲相關類型區(qū)分，貝U 起始點的類型的種類是多少不重要。
[0100] 然后，在步驟S750中，CPU 101使用諸如EM算法的現(xiàn)有模型訓練方法，根據(jù)從步驟 S720中提取的特征、從步驟S710中獲得的音頻標簽和從步驟S740中獲得的確定的起始點的類型，生成起始點相關聲音模型。例如，生成的起始點相關聲音模型可W是GMM、HMM、ANN 模型或SVM模型，并且確定的起始點的類型至少可W是上述沖擊聲相關類型和非沖擊聲相關類型。陽101] 最后，CPU 101可朗尋生成的起始點相關聲音模型存儲在圖2中的沖擊聲檢測裝置100的ROM 103或硬盤104中。由于現(xiàn)有技術僅使用已錄音頻和與已錄音頻相對應的音頻標簽的特征來生成普通聲音模型，而本發(fā)明還使用已錄音頻段的起始點的類型，來生成起始點相關聲音模型，因此本領域中的普通聲音模型是在本發(fā)明中生成的起始點相關聲音模型的特殊情況。也就是說，如果不進行基于起始點的屬性進一步細分起始點的類型，則本發(fā)明的起始點相關聲音模型實際上是本領域中的普通聲音模型。
[0102] 然而，如果基于起始點的屬性進一步細分起始點的類型，則起始點相關聲音模型的精度比本領域中的普通聲音模型更準確。如上所述，W槍擊聲為例，槍擊聲的起始點的類型可W是與第一種類型的起始點相對應的第一槍擊聲相關類型和與第二種類型的起始點相對應的第二槍擊聲相關類型，由此槍擊聲的起始點相關聲音模型可W包含與第一種類型的起始點相對應的第一槍擊聲模型和與第二種類型的起始點相對應的第二槍擊聲模型。陽103] 如上所述，本發(fā)明的第一實施例使用起始點的分類結果，來優(yōu)化沖擊聲識別的結果。也就是說，圖2所示的沖擊聲檢測裝置100可W通過將第一沖擊聲的似然度得分和所確定的起始點的類型的似然度得分綜合，來確定第二沖擊聲。因此，本發(fā)明的沖擊聲檢測性能能夠得到改善。此外，如上所述，沖擊聲檢測裝置100還可W使用起始點相關聲音模型，來識別沖擊聲。由于在生成起始點相關聲音模型時，本發(fā)明考慮使用已錄音頻段的起始點的信息，例如起始點的位置和起始點的能量相關特征，因此起始點相關聲音模型的精度比本領域中的普通聲音模型更準確。因此，本發(fā)明的沖擊聲檢測性能能夠進一步得到改善。 [0104](第二實施例）陽105] 圖8是例示根據(jù)本發(fā)明的第二實施例的與由沖擊聲檢測裝置100進行的沖擊聲檢測相關的示例性功能配置的框圖。在第二實施例中，本發(fā)明使用起始點的分類結果來驗證沖擊聲識別的結果。當CPU 101執(zhí)行存儲在ROM 103和/或硬盤104中的程序時，實現(xiàn)下面的功能單元。
[0106] 圖8與圖3相比，在圖8所示的沖擊聲檢測裝置100中存在W下主要不同點：陽107] 起始點檢測單元304僅在由沖擊聲識別單元303識別為第一沖擊聲的音頻段內，檢測音頻段的起始點。也就是說，起始點檢測單元304可W在至少一部分音頻段內檢測音頻段的起始點，例如在從圖3所示的預處理單元302輸出的所有音頻段內檢測音頻段的起始點，或者在由圖8所示的沖擊聲識別單元303識別為第一沖擊聲的音頻段內檢測音頻段的起始點。
[0108] 由于對圖8所示的輸入設備105、音頻獲得單元301、預處理單元302、沖擊聲識別單元303、起始點檢測單元304、起始點分類單元305、沖擊聲確定單元306、聲音模型307、起始點模型308和輸出設備106的其它詳細描述與圖3所示的相應單元類似，因此運里不重復詳細描述。此外，應當注意，由于起始點檢測單元304僅在由沖擊聲識別單元303識別為第一沖擊聲的音頻段內檢測各個音頻段的起始點，因此第二實施例的計算量比第一實施例的計算量小。陽1〇9](第S實施例）
[0110] 圖9是例示根據(jù)本發(fā)明的第Ξ實施例的與由沖擊聲檢測裝置100進行的沖擊聲檢測相關的示例性功能配置的框圖。在第Ξ實施例中，本發(fā)明使用起始點的分類結果來選擇要在沖擊聲識別操作中識別的音頻段，并且本發(fā)明還可W使用檢測到的起始點的位置，來優(yōu)化要在沖擊聲識別操作中識別的音頻段的起始位置。當CPU 101執(zhí)行存儲在ROM 103和 /或硬盤104中的程序時，實現(xiàn)下面的功能單元。陽111] 圖9與圖3相比，在圖9所示的沖擊聲檢測裝置100中存在兩個主要不同點：
[0112] 第一，沖擊聲檢測裝置100還包括用來優(yōu)化沖擊聲識別單元303的音頻輸入的音頻段優(yōu)化單元901。稍后將描述對音頻段優(yōu)化單元901的詳細描述。陽113] 第二，沖擊聲檢測裝置100不包括圖3所示的沖擊聲確定單元306。輸出設備106 接收由沖擊聲識別單元303識別的沖擊聲，并且可W向警報裝置輸出沖擊聲，例如經(jīng)由網(wǎng) 絡（未示出）向PC型設備12輸出沖擊聲，或者向圖1所示的警報設備13輸出沖擊聲。
[0114] 現(xiàn)在，下面描述對音頻段優(yōu)化單元901的詳細描述。
[0115] 在一種實現(xiàn)方式中，音頻段優(yōu)化單元901包括如圖9所示的第一音頻段優(yōu)化單元，第一音頻段優(yōu)化單元可W選擇從預處理單元302輸出的、由起始點分類單元305確定的起始點的類型是沖擊聲相關類型的音頻段。然后，沖擊聲識別單元303基于預先生成的聲音模型307和提取的與所選擇的音頻段相對應的特征，從由第一音頻段優(yōu)化單元選擇的音頻段中，識別沖擊聲（即第一沖擊聲）。應當注意，在運種實現(xiàn)方式中，由于沖擊聲識別單元 303僅從由第一音頻段優(yōu)化單元選擇的音頻段中識別沖擊聲，因此第Ξ實施例的計算量比第一實施例的計算量小。
[0116] 在另一種實現(xiàn)方式中，除了上述第一音頻段優(yōu)化單元之外，音頻段優(yōu)化單元901 還可W包括如圖9所示的第二音頻段優(yōu)化單元，第二音頻段優(yōu)化單元可W將由第一音頻段優(yōu)化單元選擇的音頻段的起始位置，重置為所選擇的從起始點檢測單元304輸出的音頻段的起始點的位置。
[0117] 然后，沖擊聲識別單元303基于預先生成的聲音模型307和所提取的與起始位置被重置的音頻段相對應的特征，從起始位置被第二音頻段優(yōu)化單元重置的音頻段中，識別沖擊聲（即第一沖擊聲）。應當注意，在運種實現(xiàn)方式中，由于沖擊聲識別單元303僅從由第一音頻段優(yōu)化單元選擇并且起始位置基于所選擇的音頻段的起始點的位置被重置的音頻段中，識別沖擊聲，因此第Ξ實施例的計算量比第一實施例的計算量小，并且第Ξ實施例的沖擊聲檢測性能比第一實施例的沖擊聲檢測性能更準確。
[0118] 對于本領域技術人員顯而易見的是，第一音頻段優(yōu)化單元和第二音頻段優(yōu)化單元可W單獨構成，如圖9所示，或者第一音頻段優(yōu)化單元和第二音頻段優(yōu)化單元可W作為一個單元構成，只要其能夠實現(xiàn)上述功能或者能夠獲得上述效果即可。另外，由于對圖9所示的輸入設備105、音頻獲得單元301、預處理單元302、沖擊聲識別單元303、起始點檢測單元 304、起始點分類單元305、聲音模型307、起始點模型308和輸出設備106的其它詳細描述與圖3所示的相應單元類似，因此運里不重復詳細描述。
[0119] (第四實施例）
[0120] 圖10是例示根據(jù)本發(fā)明的第四實施例的與由沖擊聲檢測裝置100進行的沖擊聲檢測相關的示例性功能配置的框圖。在第四實施例中，除了使用起始點的分類結果來選擇要在沖擊聲識別操作中識別的音頻段，并且還使用檢測到的起始點的位置來驗證要在沖擊聲識別操作中識別的音頻段的起始位置之外，本發(fā)明還可W使用起始點的分類結果，來優(yōu) 化沖擊聲識別的結果。當CPU 101執(zhí)行存儲在ROM 103和/或硬盤104中的程序時，實現(xiàn) 下面的功能單元。陽121] 圖10與圖9相比，在圖10所示的沖擊聲檢測裝置100中僅存在一個不同點，也就是說，沖擊聲檢測裝置100還包括沖擊聲確定單元306,沖擊聲確定單元306可W通過將由沖擊聲識別單元303計算的第一沖擊聲的似然度得分，與由起始點分類單元305計算的確定的起始點的類型的似然度得分綜合，來確定沖擊聲（即第二沖擊聲）。由于對圖10所示的沖擊聲確定單元306的詳細描述，與圖3所示的沖擊聲確定單元306類似，因此運里不重復其詳細描述。陽122](第五實施例）
[0123] 如上所述，沖擊聲檢測裝置100可W使用起始點相關聲音模型來識別沖擊聲，并且相應的效果是使用精度比本領域中的普通聲音模型更準確的起始點相關聲音模型，能夠改善沖擊聲檢測性能。因此，作為起始點相關聲音模型的簡單應用，圖11示出了例示根據(jù) 本發(fā)明的第五實施例的與由沖擊聲檢測裝置100進行的沖擊聲檢測相關的示例性功能配置的框圖。當CPU 101執(zhí)行存儲在ROM 103和/或硬盤104中的程序時，實現(xiàn)下面的功能單元。陽124] 如圖11所示，輸入設備105可W接收例如從圖1所示的音頻傳感器11輸出的音頻數(shù)據(jù)。
[01巧]音頻獲得單元301獲得來自輸入設備105的音頻輸入。
[01%] 預處理單元302首先從所獲得的從音頻獲得單元301輸出的音頻中，提取至少一種特征。所提取的特征可W是W下本領域技術人員已知的特征中的至少一個：例如LPC、 ZCR、MFCC、譜功率、子帶能量、子帶能量的TE0等。然后，預處理單元302例如使用本領域技術人員熟悉的任意種類的VAD算法，基于所提取的特征，將所獲得的音頻分割為至少一個音頻段。作為另選方案，也可W在兩個單獨的單元中執(zhí)行上述提取操作和分割操作。
[0127] 沖擊聲識別單元303從預處理單元302接收音頻段和提取的特征，并且基于預先生成的起始點相關聲音模型1104和與音頻段相對應的提取的特征，從音頻段中識別沖擊聲，其中，起始點相關聲音模型1104由用戶、操作者和/或制造商根據(jù)參照圖7詳細描述的方法預先生成或訓練，并且可W將其存儲在圖2中的沖擊聲檢測裝置100的ROM 103或硬盤104中。
[0128] 最后，輸出設備106接收由沖擊聲識別單元303識別的沖擊聲，并且向警報裝置輸出沖擊聲，例如經(jīng)由網(wǎng)絡（未示出）向PC型設備12或者向圖1所示的警報設備13輸出沖擊聲。
[0129] (沖擊聲檢測方法）陽130] 應當注意，圖3和圖8~11所示的沖擊聲檢測裝置100的各個單元可W被構造為進行將在圖12~13所示的流程圖中描述的沖擊聲檢測方法的各個步驟。陽131] 圖12示意性地示出了根據(jù)本發(fā)明的實施例的沖擊聲檢測方法的流程圖，相應的程序存儲在圖2中的ROM 103和/或硬盤104中。當CPU 101將存儲在ROM 103和/或硬盤104中的相應的程序加載到RAM 102中，并且執(zhí)行相應的程序時，實現(xiàn)下面的各個步驟的操作。陽132] 如圖12所示，在音頻獲得步驟S1210中，圖2所示的沖擊聲檢測裝置100的CPU 101獲得來自沖擊聲檢測裝置100的輸入設備105的音頻輸入（對應于圖3中的音頻獲得單元301)。
[0133] 在預處理步驟S1220中，CPU 101首先從自音頻獲得步驟S1210中輸出的獲得的音頻中提取至少一種特征。所提取的特征可W是W下本領域技術人員已知的特征中的至少一個：例如1?(：、20?、1。0：、譜功率、子帶能量、子帶能量的了60等。然后，〔?1]101例如使用本領域技術人員熟悉的任意種類的VAD算法，基于提取的特征，將獲得的音頻分割為至少一個音頻段（對應于圖3中的預處理單元302)。
[0134] 在沖擊聲識別步驟S1230中，CPU 101基于預先生成的聲音模型和與音頻段相對應的提取的特征，從音頻段中識別沖擊聲（即第一沖擊聲）（對應于圖3中的沖擊聲識別單元303)。作為優(yōu)選的可選解決方案，預先生成的聲音模型可W是根據(jù)參照圖7詳細描述的方法生成的起始點相關聲音模型。
[0135] 然后，CPU 101在至少一部分音頻段內檢測音頻段的起始點，并且輸出起始點的位置和起始點的能量相關特征（對應于圖3中的起始點檢測單元304)。檢測音頻段的起始點的詳細處理可W參照圖4~5。陽136] 在一種實現(xiàn)方式中，如圖12所示，在起始點檢測步驟S1240中，CPU101可W在從預處理步驟S1220中輸出的所有音頻段內，檢測音頻段的起始點（對應于圖3所示的第一實施例）。陽137] 在另一種實現(xiàn)方式中，在起始點檢測步驟（在圖12中未示出）中，CPU 101可W 在沖擊聲識別步驟S1230中被識別為第一沖擊聲的音頻段內，檢測音頻段的起始點（對應于圖8所示的第二實施例）。
[013引然后，如圖12所示，在起始點分類步驟S1250中，CPU 101基于預先生成的起始點模型和起始點的能量相關特征，確定起始點的至少兩種類型（對應于圖3所示的起始點分類單元305)。作為優(yōu)選解決方案，預先生成的起始點模型可W根據(jù)參照圖6詳細描述的方法生成。陽139] 最后，在沖擊聲確定步驟S1260中，CPU 101基于從沖擊聲識別步驟S1230中輸出的識別的沖擊聲和從起始點分類步驟S1250中輸出的確定的起始點的類型，從音頻段中確定沖擊聲（即第二沖擊聲）（對應于圖3所示的沖擊聲確定單元306)。
[0140] 在一種實現(xiàn)方式中，在沖擊聲確定步驟S1260中，CPU 101可W通過將從沖擊聲識別步驟S1230中輸出的第一沖擊聲的似然度得分和從起始點分類步驟S1250中輸出的確定的起始點的類型的似然度得分綜合，來確定第二沖擊聲（對應于圖3所示的第一實施例）。陽141] 在另一種實現(xiàn)方式中，在沖擊聲確定步驟S1260中，當在沖擊聲識別步驟S1230中被識別為第一沖擊聲的音頻段的起始點的類型是沖擊聲相關類型時，CPU 101將相應的第一沖擊聲確定為第二沖擊聲（對應于圖8所示的第二實施例）。陽142] 作為優(yōu)選解決方案，圖12所示的沖擊聲檢測方法還包括第一音頻段優(yōu)化步驟（未示出）。在第一音頻段優(yōu)化步驟中，CPU 101選擇從預處理步驟S1220中輸出的、在起始點分類步驟S1250中確定的起始點的類型是沖擊聲相關類型的音頻段。并且在沖擊聲識別步驟S1230中，CPU 101基于預先生成的聲音模型和與所選擇的音頻段相對應的提取的特征，從在第一音頻段優(yōu)化步驟中選擇的音頻段中，識別沖擊聲（即第一沖擊聲）（對應于圖10 所示的第四實施例）。陽143] 作為另一優(yōu)選解決方案，除了上述第一音頻段優(yōu)化步驟之外，圖12所示的沖擊聲檢測方法還可W包括第二音頻段優(yōu)化步驟（未示出）。在第二音頻段優(yōu)化步驟中，CPU 101 基于所選擇的音頻段的起始點的位置，重置在第一音頻段優(yōu)化步驟中選擇的音頻段的起始位置。并且在沖擊聲識別步驟S1230中，CPU 101基于預先生成的聲音模型和與重置了起始位置的音頻段相對應的提取的特征，從在第二音頻段優(yōu)化步驟中重置了起始位置的音頻段中，識別沖擊聲（即第一沖擊聲）（對應于圖10所示的第四實施例）。
[0144]圖13示意性地示出了根據(jù)本發(fā)明的實施例的沖擊聲檢測方法的另一流程圖，其中，相應的程序存儲在圖2中的ROM 103和/或硬盤104中。當CPU 101將存儲在ROM 103 和/或硬盤104中的相應的程序加載到RAM 102中，并且執(zhí)行相應的程序時，實現(xiàn)下面的各個步驟的操作。陽145] 如圖13所示，在音頻獲得步驟S1310中，圖2所示的沖擊聲檢測裝置100的CPU 101獲得來自沖擊聲檢測裝置100的輸入設備105的音頻輸入（對應于圖9中的音頻獲得單元301)。陽146] 在預處理步驟S1320中，CPU 101首先從自音頻獲得步驟S1210中輸出的獲得的音頻中提取至少一種特征。所提取的特征可W是W下本領域技術人員已知的特征中的至少一個：例如1?(：、20?、1。0：、譜功率、子帶能量、子帶能量的了60等。然后，〔?1]101例如使用本領域技術人員熟悉的任意種類的VAD算法，基于提取的特征，將獲得的音頻分割為至少一個音頻段（對應于圖9中的預處理單元302)。陽147] 在起始點檢測步驟S1330中，CPU 101在從預處理步驟S1320中輸出的所有音頻段內，檢測音頻段的起始點，并且輸出起始點的位置和起始點的能量相關特征（對應于圖9 中的起始點檢測單元304)。檢測音頻段的起始點的詳細處理可W參照圖4~5。
[0148] 在起始點分類步驟S1340中，CPU 101基于預先生成的起始點模型和起始點的能量相關特征，確定起始點的至少兩種類型（對應于圖9所示的起始點分類單元305)。作為優(yōu)選解決方案，預先生成的起始點模型可W根據(jù)參照圖6詳細描述的方法生成。
[0149] 在第一音頻段優(yōu)化步驟S1350中，CPU 101選擇從預處理步驟S1320中輸出的、在起始點分類步驟S1340中確定的起始點的類型是沖擊聲相關類型的音頻段（對應于圖9所示的音頻段優(yōu)化單元901)。陽150] 最后，在沖擊聲識別步驟S1360中，CPU 101基于預先生成的聲音模型和與所選擇的音頻段相對應的提取的特征，從在第一音頻段優(yōu)化步驟S1350中選擇的音頻段中，識別沖擊聲（即第一沖擊聲）（對應于圖9所示的沖擊聲識別單元303)。陽151] 作為優(yōu)選解決方案，圖13所示的沖擊聲檢測方法還可W包括第二音頻段優(yōu)化步驟（未示出）。在第二音頻段優(yōu)化步驟中，CPU 101基于所選擇的音頻段的起始點的位置，重置在第一音頻段優(yōu)化步驟S1350中選擇的音頻段的起始位置。并且在沖擊聲識別步驟 S1360中，CPU 101基于預先生成的聲音模型和與重置了起始位置的音頻段相對應的提取的特征，從在第二音頻段優(yōu)化步驟中重置了起始位置的音頻段中，識別沖擊聲（即第一沖擊聲）（對應于圖9所示的沖擊聲識別單元303)。陽152] 利用上面描述的示例性沖擊聲檢測裝置和沖擊聲檢測方法，在檢測沖擊聲時，除了使用從上述預處理操作中獲得的音頻段的特征之外，本發(fā)明還考慮使用音頻段的起始點的信息，例如起始點的位置和起始點的能量相關特征；其中，起始點的能量相關特征可W是相對TEO能量和/或關鍵TEO能量。在本發(fā)明中，將起始點視為相應的音頻段中的能量變化最大的點，其可W提供不同沖擊聲的特有信息，例如對于不同的沖擊聲來說，在初始音頻帖中快速增大的沖擊聲的能量的不同的增大模式。因此，使用起始點的信息能夠改善沖擊聲檢測性能。陽153] 上面描述的所有單元是示例性的，和/或是用于實現(xiàn)在本公開中描述的處理的優(yōu) 選模塊。運些單元可W是硬件單元（例如現(xiàn)場可編程口陣列（FPGA)、數(shù)字信號處理器、專用集成電路等）和/或軟件模塊（例如計算機可讀程序）。上面沒有窮盡地描述用于實現(xiàn)各個步驟的單元。然而，在存在進行特定處理的步驟的情況下，可能存在用于實現(xiàn)相同的處理的相應的功能模塊或單元（用硬件和/或軟件實現(xiàn)）。只要所描述的步驟和與運些步驟相對應的單元的所有組合的技術方案是完整的并且是可應用的，則它們構成的技術方案都包含在本申請的公開中。
[0154] 能夠W許多方式來實現(xiàn)本發(fā)明的方法和裝置。例如，能夠通過軟件、硬件、固件或其任意組合來實現(xiàn)本發(fā)明的方法和裝置。上面描述的方法的步驟的順序僅旨在是說明性的，除非另外具體指出，否則本發(fā)明的方法的步驟不局限于上面具體描述的順序。此外，在一些實施例中，本發(fā)明還可W作為用于實現(xiàn)根據(jù)本發(fā)明的方法的、包括機器可讀指令的記錄在記錄介質中的程序來實施。因此，本發(fā)明還覆蓋存儲用于實現(xiàn)根據(jù)本發(fā)明的方法的程序的記錄介質。
[0K5] 雖然通過示例詳細闡述了本發(fā)明的一些具體實施例，但是本領域技術人員應當理解，上面的示例僅旨在是說明性的，而不限制本發(fā)明的范圍。本領域技術人員應當理解，可 W對上面的實施例進行變型，而不脫離本發(fā)明的范圍和精神。本發(fā)明的范圍由所附權利要求限定。
【主權項】
1. 一種沖擊聲檢測裝置，其包括：首頻獲得單7Π ，被構造為獲得首頻輸入；預處理單元，被構造為從所獲得的音頻中提取至少一種特征，并且基于所提取的特征，將所獲得的音頻分割為至少一個音頻段；沖擊聲識別單元，被構造為基于預先生成的聲音模型和與所述音頻段相對應的所提取的特征，從所述音頻段中識別第一沖擊聲；起始點檢測單元，被構造為在至少一部分所述音頻段內檢測音頻段的起始點，并且輸出所述起始點的位置和所述起始點的能量相關特征；起始點分類單元，被構造為基于預先生成的起始點模型和所述起始點的所述能量相關特征，確定所述起始點的至少兩種類型；以及沖擊聲確定單元，被構造為基于從所述沖擊聲識別單元輸出的所述第一沖擊聲和從所述起始點分類單元輸出的所確定的所述起始點的類型，從所述音頻段中確定第二沖擊聲。2. 根據(jù)權利要求1所述的沖擊聲檢測裝置，其中，所述起始點檢測單元在從所述預處理單元輸出的所有音頻段內檢測音頻段的起始點。3. 根據(jù)權利要求1所述的沖擊聲檢測裝置，其中，所述起始點檢測單元在被所述沖擊聲識別單元識別為所述第一沖擊聲的音頻段內檢測音頻段的起始點。4. 根據(jù)權利要求1至3中任一項所述的沖擊聲檢測裝置，其中，所述起始點檢測單元包括：相對Teager能量算子能量計算單元，被構造為計算所述音頻段中的音頻幀的相對 Teager能量算子能量；距離計算單元，被構造為基于所計算的相對Teager能量算子能量，計算所述音頻幀的相對突出度；以及起始點確定單元，被構造為將相對突出度最大的音頻幀的位置確定為起始點，并且記錄相應音頻幀的位置作為所述起始點的位置，并記錄相應音頻幀的相對Teager能量算子能量作為所述起始點的所述能量相關特征。5. 根據(jù)權利要求4所述的沖擊聲檢測裝置，其中，所述起始點檢測單元還包括：變換單元，被構造為使用特征變換方法，將所述音頻幀的所述相對Teager能量算子能量轉換為關鍵Teager能量算子能量；并且其中，所述距離計算單元基于所述關鍵Teager能量算子能量，計算所述音頻幀的所述相對突出度；并且所述起始點確定單元將相對突出度最大的音頻幀的位置確定為起始點，并且記錄相應音頻幀的位置作為所述起始點的位置，并記錄相應音頻幀的關鍵Teager能量算子能量作為所述起始點的所述能量相關特征。6. 根據(jù)權利要求2所述的沖擊聲檢測裝置，所述沖擊聲檢測裝置還包括：第一音頻段優(yōu)化單元，被構造為選擇從所述預處理單元輸出的、由所述起始點分類單元確定的起始點的類型是沖擊聲相關類型的音頻段；并且其中，所述沖擊聲識別單元基于所述預先生成的聲音模型和與所選擇的音頻段相對應的所提取的特征，從由所述第一音頻段優(yōu)化單元選擇的所述音頻段中，識別所述第一沖擊聲。7. 根據(jù)權利要求6所述的沖擊聲檢測裝置，所述沖擊聲檢測裝置還包括：第二音頻段優(yōu)化單元，被構造為將由所述第一音頻段優(yōu)化單元選擇的所述音頻段的起始位置，重置為所選擇的音頻段的起始點的位置；并且其中，所述沖擊聲識別單元基于所述預先生成的聲音模型和與起始位置被重置的所述音頻段相對應的所提取的特征，從起始位置被所述第二音頻段優(yōu)化單元重置的音頻段中，識別所述第一沖擊聲。8. 根據(jù)權利要求1所述的沖擊聲檢測裝置，其中，所述沖擊聲確定單元通過將從所述沖擊聲識別單元輸出的所述第一沖擊聲的似然度得分與從所述起始點分類單元輸出的所確定的起始點的類型的似然度得分綜合，來確定所述第二沖擊聲。9. 根據(jù)權利要求1所述的沖擊聲檢測裝置，其中，由所述沖擊聲識別單元使用的所述預先生成的聲音模型是起始點相關聲音模型，并且所述起始點相關聲音模型通過如下步驟生成：獲得已錄音頻和與所述已錄音頻相對應的音頻標簽；從所述已錄音頻中提取至少一種特征，并且基于所提取的特征，將所述已錄音頻分割為至少一個已錄音頻段；檢測所述已錄音頻段的起始點，并且輸出所述起始點的位置和所述起始點的能量相關特征；基于所述預先生成的起始點模型和所述起始點的所述能量相關特征，確定所述起始點的至少兩種類型；以及根據(jù)所提取的特征、所獲得的音頻標簽和所確定的所述起始點的類型，生成所述起始點相關聲音模型。10. 根據(jù)權利要求1或9所述的沖擊聲檢測裝置，其中，所述預先生成的起始點模型通過如下步驟生成：獲得已錄音頻和與所述已錄音頻相對應的音頻標簽；從所述已錄音頻中提取至少一種特征，并且基于所提取的特征，將所述已錄音頻分割為至少一個已錄音頻段；檢測所述已錄音頻段的起始點，并且輸出所述起始點的位置和所述起始點的能量相關特征；基于與對應于所述起始點的所述已錄音頻段相關的所述音頻標簽和所述起始點的所述能量相關特征，將所述起始點聚類到至少兩種類型中；以及根據(jù)所述起始點的所述能量相關特征和所聚類的所述起始點的類型，生成所述起始點模型。11. 根據(jù)權利要求10所述的沖擊聲檢測裝置，其中，檢測一個已錄音頻段的起始點的步驟包括：相對Teager能量算子能量計算步驟，計算所述已錄音頻段中的已錄音頻幀的相對 Teager能量算子能量；距離計算步驟，基于所計算的相對Teager能量算子能量，計算所述已錄音頻幀的相對突出度；以及起始點確定步驟，將相對突出度最大的已錄音頻幀的位置確定為起始點，并且記錄相應已錄音頻幀的位置作為所述起始點的位置，并記錄相應已錄音頻幀的相對Teager能量算子能量作為所述起始點的所述能量相關特征。12. 根據(jù)權利要求11所述的沖擊聲檢測裝置，其中，檢測一個已錄音頻段的起始點的所述步驟還包括：變換步驟，使用特征變換方法，將所述已錄音頻幀的所述相對Teager能量算子能量轉換為關鍵Teager能量算子能量；并且其中，所述距離計算步驟基于所述關鍵Teager能量算子能量，計算所述已錄音頻幀的所述相對突出度；并且所述起始點確定步驟將相對突出度最大的已錄音頻幀的位置確定為起始點，并且記錄相應已錄音頻幀的位置作為所述起始點的位置，并記錄相應已錄音頻幀的關鍵Teager能量算子能量作為所述起始點的所述能量相關特征。13. -種沖擊聲檢測裝置，其包括：首頻獲得單7Π ，被構造為獲得首頻輸入；預處理單元，被構造為從所獲得的音頻中提取至少一種特征，并且基于所提取的特征，將所獲得的音頻分割為至少一個音頻段；起始點檢測單元，被構造為檢測所述音頻段的起始點，并且輸出所述起始點的位置和所述起始點的能量相關特征；起始點分類單元，被構造為基于預先生成的起始點模型和所述起始點的所述能量相關特征，確定所述起始點的至少兩種類型；第一音頻段優(yōu)化單元，被構造為選擇從所述預處理單元輸出的、由所述起始點分類單元確定的起始點的類型是沖擊聲相關類型的音頻段；以及沖擊聲識別單元，被構造為基于預先生成的聲音模型和與所選擇的音頻段相對應的所提取的特征，從由所述第一音頻段優(yōu)化單元選擇的所述音頻段中，識別沖擊聲。14. 根據(jù)權利要求13所述的沖擊聲檢測裝置，所述沖擊聲檢測裝置還包括：第二音頻段優(yōu)化單元，被構造為將由所述第一音頻段優(yōu)化單元選擇的所述音頻段的起始位置，重置為所選擇的音頻段的起始點的位置；并且其中，所述沖擊聲識別單元基于所述預先生成的聲音模型和與起始位置被重置的所述音頻段相對應的所提取的特征，從起始位置被所述第二音頻段優(yōu)化單元重置的音頻段中，識別所述沖擊聲。15. 根據(jù)權利要求13或14所述的沖擊聲檢測裝置，其中，所述起始點檢測單元包括：相對Teager能量算子能量計算單元，被構造為計算所述音頻段中的音頻幀的相對 Teager能量算子能量；距離計算單元，被構造為基于所計算的相對Teager能量算子能量，計算所述音頻幀的相對突出度；以及起始點確定單元，被構造為將相對突出度最大的音頻幀的位置確定為起始點，并且記錄相應音頻幀的位置作為所述起始點的位置，并記錄相應音頻幀的相對Teager能量算子能量作為所述起始點的所述能量相關特征。16. 根據(jù)權利要求15所述的沖擊聲檢測裝置，其中，所述起始點檢測單元還包括：變換單元，被構造為使用特征變換方法，將所述音頻幀的所述相對Teager能量算子能量轉換為關鍵Teager能量算子能量；并且其中，所述距離計算單元基于所述關鍵Teager能量算子能量，計算所述音頻幀的所述相對突出度；并且所述起始點確定單元將相對突出度最大的音頻幀的位置確定為起始點，并且記錄相應音頻幀的位置作為所述起始點的位置，并記錄相應音頻幀的關鍵Teager能量算子能量作為所述起始點的所述能量相關特征。17. 根據(jù)權利要求13或14所述的沖擊聲檢測裝置，其中，由所述沖擊聲識別單元使用的所述預先生成的聲音模型是起始點相關聲音模型，并且所述起始點相關聲音模型通過如下步驟生成：獲得已錄音頻和與所述已錄音頻相對應的音頻標簽；從所述已錄音頻中提取至少一種特征，并且基于所提取的特征，將所述已錄音頻分割為至少一個已錄音頻段；檢測所述已錄音頻段的起始點，并且輸出所述起始點的位置和所述起始點的能量相關特征；基于所述預先生成的起始點模型和所述起始點的所述能量相關特征，確定所述起始點的至少兩種類型；以及根據(jù)所提取的特征、所獲得的音頻標簽和所確定的所述起始點的類型，生成所述起始點相關聲音模型。18. 根據(jù)權利要求13或14所述的沖擊聲檢測裝置，其中，所述預先生成的起始點模型通過如下步驟生成：獲得已錄音頻和與所述已錄音頻相對應的音頻標簽；從所述已錄音頻中提取至少一種特征，并且基于所提取的特征，將所述已錄音頻分割為至少一個已錄音頻段；檢測所述已錄音頻段的起始點，并且輸出所述起始點的位置和所述起始點的能量相關特征；基于與對應于所述起始點的所述已錄音頻段相關的所述音頻標簽和所述起始點的所述能量相關特征，將所述起始點聚類到至少兩種類型中；以及根據(jù)所述起始點的所述能量相關特征和所聚類的所述起始點的類型，生成所述起始點模型。19. 根據(jù)權利要求18所述的沖擊聲檢測裝置，其中，檢測一個已錄音頻段的起始點的步驟包括：相對Teager能量算子能量計算步驟，計算所述已錄音頻段中的已錄音頻幀的相對 Teager能量算子能量；距離計算步驟，基于所計算的相對Teager能量算子能量，計算所述已錄音頻幀的相對突出度；以及起始點確定步驟，將相對突出度最大的已錄音頻幀的位置確定為起始點，并且記錄相應已錄音頻幀的位置作為所述起始點的位置，并記錄相應已錄音頻幀的相對Teager能量算子能量作為所述起始點的所述能量相關特征。20. 根據(jù)權利要求19所述的沖擊聲檢測裝置，其中，檢測一個已錄音頻段的起始點的所述步驟還包括：變換步驟，使用特征變換方法，將所述已錄音頻幀的所述相對Teager能量算子能量轉換為關鍵Teager能量算子能量；并且其中，所述距離計算步驟基于所述關鍵Teager能量算子能量，計算所述已錄音頻幀的所述相對突出度；并且所述起始點確定步驟將相對突出度最大的已錄音頻幀的位置確定為起始點，并且記錄相應已錄音頻幀的位置作為所述起始點的位置，并記錄相應已錄音頻幀的關鍵Teager能量算子能量作為所述起始點的所述能量相關特征。21. -種聲音模型生成方法，其包括：獲得已錄音頻和與所述已錄音頻相對應的音頻標簽；從所述已錄音頻中提取至少一種特征，并且基于所提取的特征，將所述已錄音頻分割為至少一個已錄音頻段；檢測所述已錄音頻段的起始點，并且輸出所述起始點的位置和所述起始點的能量相關特征；基于預先生成的起始點模型和所述起始點的所述能量相關特征，確定所述起始點的至少兩種類型；并且根據(jù)所提取的特征、所獲得的音頻標簽和所確定的所述起始點的類型，生成起始點相關聲音模型。22. 根據(jù)權利要求21所述的聲音模型生成方法，其中，檢測一個已錄音頻段的起始點的步驟包括：相對Teager能量算子能量計算步驟，計算所述已錄音頻段中的已錄音頻幀的相對 Teager能量算子能量；距離計算步驟，基于所計算的相對Teager能量算子能量，計算所述已錄音頻幀的相對突出度；以及起始點確定步驟，將相對突出度最大的已錄音頻幀的位置確定為起始點，并且記錄相應已錄音頻幀的位置作為所述起始點的位置，并記錄相應已錄音頻幀的相對Teager能量算子能量作為所述起始點的所述能量相關特征。23. 根據(jù)權利要求22所述的聲音模型生成方法，其中，檢測一個已錄音頻段的起始點的所述步驟還包括：變換步驟，使用特征變換方法，將所述已錄音頻幀的所述相對Teager能量算子能量轉換為關鍵Teager能量算子能量；并且其中，所述距離計算步驟基于所述關鍵Teager能量算子能量，計算所述已錄音頻幀的所述相對突出度；并且所述起始點確定步驟將相對突出度最大的已錄音頻幀的位置確定為起始點，并且記錄相應已錄音頻幀的位置作為所述起始點的位置，并記錄相應已錄音頻幀的關鍵Teager能量算子能量作為所述起始點的所述能量相關特征。24. -種沖擊聲檢測裝置，其包括：首頻獲得單7Π ，被構造為獲得首頻輸入；預處理單元，被構造為從所獲得的音頻中提取至少一種特征，并且基于所提取的特征，將所獲得的音頻分割為至少一個音頻段；以及沖擊聲識別單元，被構造為基于根據(jù)權利要求21至23中任一項生成的聲音模型和與所述音頻段相對應的所提取的特征，從所述音頻段中識別沖擊聲。25. -種沖擊聲檢測方法，其包括：音頻獲得步驟，獲得音頻輸入；預處理步驟，從所獲得的音頻中提取至少一種特征，并且基于所提取的特征，將所獲得的音頻分割為至少一個音頻段；沖擊聲識別步驟，基于預先生成的聲音模型和與所述音頻段相對應的所提取的特征，從所述音頻段中識別第一沖擊聲；起始點檢測步驟，在至少一部分所述音頻段內檢測音頻段的起始點，并且輸出所述起始點的位置和所述起始點的能量相關特征；起始點分類步驟，基于預先生成的起始點模型和所述起始點的所述能量相關特征，確定所述起始點的至少兩種類型；以及沖擊聲確定步驟，基于從所述沖擊聲識別步驟輸出的所述第一沖擊聲和從所述起始點分類步驟輸出的所確定的所述起始點的類型，從所述音頻段中確定第二沖擊聲。26. 根據(jù)權利要求25所述的沖擊聲檢測方法，其中，所述起始點檢測步驟在從所述預處理步驟輸出的所有音頻段內檢測音頻段的起始點。27. 根據(jù)權利要求25所述的沖擊聲檢測方法，其中，所述起始點檢測步驟在所述沖擊聲識別步驟中識別為所述第一沖擊聲的音頻段內檢測音頻段的起始點。28. 根據(jù)權利要求26所述的沖擊聲檢測方法，所述沖擊聲檢測方法還包括：第一音頻段優(yōu)化步驟，選擇從所述預處理步驟輸出的、在所述起始點分類步驟中確定的起始點的類型是沖擊聲相關類型的音頻段；并且其中，所述沖擊聲識別步驟基于所述預先生成的聲音模型和與所選擇的音頻段相對應的所提取的特征，從在所述第一音頻段優(yōu)化步驟中選擇的所述音頻段中，識別所述第一沖擊聲。29. 根據(jù)權利要求28所述的沖擊聲檢測方法，所述沖擊聲檢測方法還包括：第二音頻段優(yōu)化步驟，將在所述第一音頻段優(yōu)化步驟中選擇的所述音頻段的起始位置，重置為所選擇的音頻段的起始點的位置；并且其中，所述沖擊聲識別步驟基于所述預先生成的聲音模型和與起始位置被重置的所述音頻段相對應的所提取的特征，從起始位置在所述第二音頻段優(yōu)化步驟中重置的音頻段中，識別所述第一沖擊聲。30. 根據(jù)權利要求25所述的沖擊聲檢測方法，其中，所述沖擊聲確定步驟通過將從所述沖擊聲識別步驟輸出的所述第一沖擊聲的似然度得分與從所述起始點分類步驟輸出的所確定的起始點的類型的似然度得分綜合，來確定所述第二沖擊聲。31. -種沖擊聲檢測方法，其包括：音頻獲得步驟，獲得音頻輸入；預處理步驟，從所獲得的音頻中提取至少一種特征，并且基于所提取的特征，將所獲得的音頻分割為至少一個音頻段；起始點檢測步驟，檢測所述音頻段的起始點，并且輸出所述起始點的位置和所述起始點的能量相關特征；起始點分類步驟，基于預先生成的起始點模型和所述起始點的所述能量相關特征，確定所述起始點的至少兩種類型；第一音頻段優(yōu)化步驟，選擇從所述預處理步驟輸出的、在所述起始點分類步驟中確定的起始點的類型是沖擊聲相關類型的音頻段；以及沖擊聲識別步驟，基于所述預先生成的聲音模型和與所選擇的音頻段相對應的所提取的特征，從在所述第一音頻段優(yōu)化步驟中選擇的所述音頻段中，識別沖擊聲。32.根據(jù)權利要求31所述的沖擊聲檢測方法，所述沖擊聲檢測方法還包括：第二音頻段優(yōu)化步驟，將在所述第一音頻段優(yōu)化步驟中選擇的所述音頻段的起始位置，重置為所選擇的音頻段的起始點的位置；并且其中，所述沖擊聲識別步驟基于所述預先生成的聲音模型和與起始位置被重置的所述音頻段相對應的所提取的特征，從起始位置在所述第二音頻段優(yōu)化步驟中重置的音頻段中，識別所述沖擊聲。
【文檔編號】G10L25/78GK105989854SQ201510090001
【公開日】2016年10月5日
【申請日】2015年2月27日
【發(fā)明人】胡偉湘
【申請人】佳能株式會社

完整全部詳細技術資料下載