用于自動語音識別的使用外推的跳幀和按需輸出的神經(jīng)網(wǎng)絡(luò)的制作方法

文檔序號：11161274閱讀：719來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

用于自動語音識別的使用外推的跳幀和按需輸出的神經(jīng)網(wǎng)絡(luò)的制造方法與工藝

本申請要求2014年9月23日提交的題為“FRAMESKIPPINGWITHEXTRAPOLATIONANDOUTPUTSONDEMANDNEURALNETWORKFORAUTOMATICSPEECHRECOGNITION”的美國專利申請序列號14/493,434的優(yōu)先權(quán)，后者通過引用整體合并于此。
背景技術(shù)：
：包括深度神經(jīng)網(wǎng)絡(luò)在內(nèi)的神經(jīng)網(wǎng)絡(luò)可以用于機(jī)器學(xué)習(xí)和感知與認(rèn)知系統(tǒng)。這些神經(jīng)網(wǎng)絡(luò)可以用在各種實(shí)現(xiàn)方式中，例如語音識別系統(tǒng)。例如，神經(jīng)網(wǎng)絡(luò)可以包括神經(jīng)元或節(jié)點(diǎn)的互連層。每層的輸入值包括對系統(tǒng)的輸入(例如，在輸入層處)或來自神經(jīng)網(wǎng)絡(luò)中的前一層的輸出。來自神經(jīng)網(wǎng)絡(luò)的輸出層的輸出值可以包括輸出值、距離值或分類值等，使得可以經(jīng)由神經(jīng)網(wǎng)絡(luò)和/或附加的處理來對神經(jīng)網(wǎng)絡(luò)的輸入進(jìn)行分類。這些神經(jīng)網(wǎng)絡(luò)處理和分類可以用于執(zhí)行用更標(biāo)準(zhǔn)的基于規(guī)則的處理系統(tǒng)可能是難以執(zhí)行或不可能執(zhí)行的分類或其它任務(wù)。如所討論的，可以在自動語音識別(ASR)系統(tǒng)中實(shí)現(xiàn)這些神經(jīng)網(wǎng)絡(luò)，并且在某些實(shí)現(xiàn)方式中，它們可能是這類系統(tǒng)的最重要的組件。在實(shí)時應(yīng)用中當(dāng)前的神經(jīng)網(wǎng)絡(luò)的問題在于，評估神經(jīng)網(wǎng)絡(luò)所需的計(jì)算量大。為了解決這一問題，某些當(dāng)前的實(shí)現(xiàn)方式將神經(jīng)網(wǎng)絡(luò)計(jì)算從設(shè)備的中央處理單元(CPU)卸載到設(shè)備的圖形處理單元(GPU)。然而，這種卸載可能導(dǎo)致與正運(yùn)行在該設(shè)備或設(shè)備的相機(jī)等上的其它GPU密集型應(yīng)用(例如游戲)沖突。此外，密集地使用設(shè)備的GPU會增加功率使用率，由此限制移動設(shè)備的電池壽命。在其它實(shí)現(xiàn)方式中，可以使用單指令多數(shù)據(jù)(SIMD)平臺和/或優(yōu)化，例如批量惰性求值模型(其可以將計(jì)算推遲，直到需要時)。然而，這些實(shí)現(xiàn)方式可能使分類精度降低。因此，現(xiàn)有技術(shù)并沒有提供實(shí)時、高效且精確的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)方式。隨著在例如語音識別中對利用經(jīng)由神經(jīng)網(wǎng)絡(luò)進(jìn)行的分類的期望變得更廣泛，這些問題可能變得關(guān)鍵。附圖說明在附圖中通過示例的方式而非通過限制的方式示出在此所描述的內(nèi)容。為了說明的簡明性和清楚性，附圖所示的要素不一定按比例繪制。例如，為了清楚，一些要素的尺寸可能相對于其它要素被夸大。此外，在認(rèn)為適當(dāng)?shù)那闆r下，在附圖之間重復(fù)了標(biāo)號，以指示對應(yīng)的或類似的要素。在附圖中：圖1是用于提供語音識別的示例設(shè)置的說明性示圖；圖2是用于提供語音識別的示例系統(tǒng)的說明性示圖；圖3是示例距離值計(jì)算模塊的說明性示圖；圖4是示例神經(jīng)網(wǎng)絡(luò)的說明性示圖；圖5示出評估和跳幀的示例時間線；圖6是示出使用跳幀和距離值近似估計(jì)來確定距離值的示例過程的流程圖；圖7是示例距離值計(jì)算模塊的說明性示圖；圖8是示例神經(jīng)網(wǎng)絡(luò)的說明性示圖；圖9是示出使用跳幀、按需距離(distancesondemand)和距離值近似估計(jì)來確定距離值的示例過程的流程圖；圖10是用于實(shí)現(xiàn)跳幀和/或按需距離的示例系統(tǒng)的說明性示圖；圖11是示出用于提供自動語音識別的示例過程的流程圖；圖12是用于提供語音識別的示例系統(tǒng)的說明性示圖；圖13是示例系統(tǒng)的說明性示圖；以及圖14示出全部根據(jù)本公開的至少一些實(shí)現(xiàn)方式所布置的示例設(shè)備。具體實(shí)施方式現(xiàn)在參照附圖描述一個或多個實(shí)施例或?qū)崿F(xiàn)方式。雖然討論特定配置和布置，但是應(yīng)理解，這僅是為了說明性目的而進(jìn)行的。本領(lǐng)域技術(shù)人員應(yīng)理解，在不脫離說明書的精神和范圍的情況下，可以采用其它配置和布置。對本領(lǐng)域技術(shù)人員顯而易見的是，也可以在除了在此所描述之外的各種其它系統(tǒng)和應(yīng)用中采用在此所描述的技術(shù)和/或布置。雖然以下描述闡述了可以在諸如片上系統(tǒng)(SoC)架構(gòu)的架構(gòu)中展現(xiàn)的各種實(shí)現(xiàn)方式，但是在此所描述的技術(shù)和/或布置的實(shí)現(xiàn)方式不限于特定架構(gòu)和/或計(jì)算系統(tǒng)，并且可以通過用于類似目的的任何架構(gòu)和/或計(jì)算系統(tǒng)來實(shí)現(xiàn)。例如，采用例如多個集成電路(IC)芯片和/或封裝的各種架構(gòu)，和/或各種計(jì)算設(shè)備和/或消費(fèi)者電子(CE)設(shè)備(例如機(jī)頂盒、智能電話等)，可以實(shí)現(xiàn)在此所描述的技術(shù)和/或布置。此外，雖然以下描述可能闡述了大量具體細(xì)節(jié)，例如系統(tǒng)組件的邏輯實(shí)現(xiàn)方式、類型和相互關(guān)系、邏輯分區(qū)/集成選取等，但是可以在沒有這些具體細(xì)節(jié)的情況下實(shí)施所要求的主題。在其它實(shí)例中，為了不掩蓋在此所公開的內(nèi)容，可能沒有詳細(xì)示出某些內(nèi)容，例如控制結(jié)構(gòu)和全軟件指令序列?？梢栽谟布⒐碳?、軟件或其任何組合中實(shí)現(xiàn)在此所公開的內(nèi)容。在此所公開的內(nèi)容也可以實(shí)現(xiàn)為機(jī)器可讀介質(zhì)上所存儲的指令，這些指令可以由一個或多個處理器讀取并執(zhí)行。計(jì)算機(jī)可讀介質(zhì)可以包括用于存儲或發(fā)送機(jī)器(例如計(jì)算設(shè)備)可讀形式的信息的任何介質(zhì)和/或機(jī)構(gòu)。例如，機(jī)器可讀介質(zhì)可以包括只讀存儲器(ROM)、隨機(jī)存取存儲器(RAM)、磁盤存儲介質(zhì)；光存儲介質(zhì)；閃存設(shè)備；電、光、聲或其它形式的傳播信號(例如載波、紅外信號、數(shù)字信號等)，以及其它介質(zhì)。說明書中對“一個實(shí)現(xiàn)方式”、“實(shí)現(xiàn)方式”、“示例實(shí)現(xiàn)方式”等的引用指示，所描述的實(shí)現(xiàn)方式可以包括特定特征、結(jié)構(gòu)或特性，但是每一實(shí)施例可以不一定包括該特定特征、結(jié)構(gòu)或特性。此外，這些短語不一定指代同一實(shí)現(xiàn)方式。此外，當(dāng)結(jié)合一個實(shí)施例描述特定特征、結(jié)構(gòu)或特性時，應(yīng)當(dāng)指出，在本領(lǐng)域技術(shù)人員的知識內(nèi)，可以結(jié)合其它實(shí)現(xiàn)方式實(shí)現(xiàn)這種特征、結(jié)構(gòu)或特征，無論是否在此明確地描述。在此所描述的方法、設(shè)備、裝置、計(jì)算平臺以及制造品與為語音識別實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)有關(guān)，并且在一些示例中，與經(jīng)由神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的跳幀技術(shù)和按需輸出值技術(shù)有關(guān)。如上所述，實(shí)時實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)對于用戶而言可以是有利的，但是由于計(jì)算資源有限以及密集地使用電池資源，上述實(shí)現(xiàn)可能是困難的。此外，嘗試減少這些資源使用率可能會使分類結(jié)果不精確。優(yōu)化神經(jīng)網(wǎng)絡(luò)與經(jīng)由數(shù)據(jù)中心主管的服務(wù)中的總經(jīng)營成本和經(jīng)由移動設(shè)備所實(shí)現(xiàn)的應(yīng)用中的電池壽命可能具有直接相關(guān)性。于在此所討論的一些實(shí)施例中，可以經(jīng)由神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)跳幀技術(shù)。例如，當(dāng)使用跳幀時，可以針對每第N個時間實(shí)例(timeinstance)或幀計(jì)算或確定神經(jīng)網(wǎng)絡(luò)輸出(例如，距離值)。對于神經(jīng)網(wǎng)絡(luò)距離值沒有被確定的時間實(shí)例，可以基于神經(jīng)網(wǎng)絡(luò)確定的來自一個或多個在先時間實(shí)例或幀的距離值來近似估計(jì)(approximate)這些距離值。例如，評估神經(jīng)網(wǎng)絡(luò)在計(jì)算上可能是復(fù)雜的，因?yàn)樵谝恍┦纠?，在該時間實(shí)例或者針對該幀評估的是整個神經(jīng)網(wǎng)絡(luò)。可以計(jì)算通過近似方法確定的距離值，其計(jì)算復(fù)雜度少得多(并且不評估神經(jīng)網(wǎng)絡(luò))。例如，可以通過外推技術(shù)，使用一個或多個在先幀的距離值來確定近似距離值。在一些示例中，外推可以包括基于來自兩個之前的幀的距離值進(jìn)行的線性外推。如在此所使用的，評估幀或非跳過幀(non-skipframe)指代通過評估神經(jīng)網(wǎng)絡(luò)來確定的距離值，而跳過幀指代通過近似技術(shù)來確定的距離值。如在此進(jìn)一步所討論的，這種跳幀結(jié)合對跳過幀的距離值進(jìn)行近似估計(jì)可以節(jié)省大量計(jì)算，而不以語音識別精度為代價，或者代價最小。此外，于在此所討論的一些實(shí)施例中，可以經(jīng)由神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)按需的神經(jīng)網(wǎng)絡(luò)輸出(例如，距離值)(例如，按需距離值或DOD)技術(shù)。例如，當(dāng)使用按需距離技術(shù)時，諸如語音解碼器的下游解碼器針對一時間實(shí)例或幀可以提供請求的距離值，請求的距離值是所有可用距離值中的子集。例如，對于特定時間實(shí)例，諸如Viterbi束搜索解碼器的語音解碼器可以僅需要從神經(jīng)網(wǎng)絡(luò)可獲得的距離值的子集。在這種示例中，語音解碼器可以提供輸出索引(例如，對于特定時間實(shí)例需要哪些輸出或距離值的指示符)給神經(jīng)網(wǎng)絡(luò)。如在此進(jìn)一步討論的，神經(jīng)網(wǎng)絡(luò)可以包括輸入層、一個或多個隱藏層、以及輸出層。例如，來自輸出層的輸出或距離值可以被提供給語音解碼器。在一些示例中，由于輸出層的每個節(jié)點(diǎn)連接到最末隱藏層(例如，連接到輸出層的隱藏層)的每個節(jié)點(diǎn)，因此必須完全評估最末隱藏層，即使只評估輸出層的一個節(jié)點(diǎn)。因此，在一些示例中，雖然可能對神經(jīng)網(wǎng)絡(luò)進(jìn)行完全評估直到最末隱藏層，但是可以僅評估與所請求的輸出索引相關(guān)聯(lián)的節(jié)點(diǎn)的子集。通過不評估非請求的輸出節(jié)點(diǎn)，可以節(jié)省大量的計(jì)算，特別是當(dāng)輸出層占整個神經(jīng)網(wǎng)絡(luò)的絕大部分時(在許多實(shí)現(xiàn)方式中為此情況)。在一些實(shí)施例中，可以結(jié)合這種跳幀技術(shù)和這種按需距離技術(shù)。例如，語音解碼器可以按照所討論地為每個時間實(shí)例提供輸出索引。對于評估幀或非跳過幀，可以按照所討論地確定與輸出索引相關(guān)聯(lián)的距離值的子集(例如，可以對神經(jīng)網(wǎng)絡(luò)進(jìn)行完全評估直到最末隱藏層，并且可以僅評估那些與輸出索引相關(guān)聯(lián)的輸出節(jié)點(diǎn)，得到的距離值被提供給語音解碼器)。此外，如以下所討論的，可以在存儲器中保存來自最末隱藏層的距離值的子集和得到值，以便后續(xù)使用。對于跳過幀，例如，可以使用外推技術(shù)來近似估計(jì)與輸出索引相關(guān)聯(lián)的距離值的子集。對于要被近似估計(jì)的特定距離值，這種技術(shù)可能需要來自在先幀的關(guān)聯(lián)(例如，來自同一輸出層節(jié)點(diǎn))的距離值。在一些示例中，如所討論的，這些來自在先幀的距離值可以已經(jīng)預(yù)先由語音解碼器請求，經(jīng)由神經(jīng)網(wǎng)絡(luò)確定，并保存到存儲器。在其它示例中，這些來自在先幀的距離值可能沒有預(yù)先經(jīng)由神經(jīng)網(wǎng)絡(luò)確定。在這種示例中，可以經(jīng)由神經(jīng)網(wǎng)絡(luò)使用所保存的最末隱藏層值來重新評估神經(jīng)網(wǎng)絡(luò)的輸出層的節(jié)點(diǎn)，得到所需的在先幀距離值。例如，所需要的距離值可能是來自前一幀或者時間實(shí)例，但是對于近似估計(jì)當(dāng)前幀或時間實(shí)例的當(dāng)前距離值是必須的。接著可以按照所討論地使用例如線性外推技術(shù)等來近似估計(jì)一個或多個當(dāng)前距離值。這種跳幀和按需距離技術(shù)的結(jié)合針對跳過幀或跳過時間實(shí)例可以不評估神經(jīng)網(wǎng)絡(luò)，并且針對評估幀可以顯著減少對神經(jīng)網(wǎng)絡(luò)的輸出層的評估(以及如所討論的后續(xù)重新評估)。所討論的距離值可以由語音解碼器用于確定文本元素序列，例如單詞、短語或n元語法等。在此所討論的技術(shù)可以節(jié)省計(jì)算資源、移動設(shè)備實(shí)現(xiàn)方式的電池壽命、云或遠(yuǎn)程服務(wù)器實(shí)現(xiàn)方式的經(jīng)營成本等。此外，如在此進(jìn)一步討論的，這種技術(shù)可以為語音識別提供實(shí)時實(shí)現(xiàn)方式。圖1是根據(jù)本公開的至少一些實(shí)現(xiàn)方式所布置的用于提供語音識別的示例設(shè)置100的說明性示圖。如圖1所示，設(shè)置100可以包括用戶101，其提供語音103，以便由設(shè)備102進(jìn)行評估。例如，設(shè)備102可以提供語音識別，使得語音103可以轉(zhuǎn)譯為文本或文本元素(例如單詞、句子、n元語法等)。如圖所示，在一些示例中，可以經(jīng)由設(shè)備(例如設(shè)備102)實(shí)現(xiàn)語音識別系統(tǒng)。如圖所示，在一些示例中，設(shè)備102可以是智能電話。然而，設(shè)備102可以是任何合適的設(shè)備(例如計(jì)算機(jī)、膝上型設(shè)備、超級本、平板等)。在一些示例中，設(shè)備102可以是可穿戴設(shè)備(例如智能手表或智能眼鏡等)。在其它示例中，可以經(jīng)由在設(shè)備102遠(yuǎn)端的系統(tǒng)(例如云語音識別系統(tǒng)中的一個或多個服務(wù)器)提供語音識別。在一些示例中，可以經(jīng)由(設(shè)備102的底部上所示的)設(shè)備102的麥克風(fēng)104接收語音103。在其它示例中，可以作為對語音的預(yù)先記錄等而接收語音103。此外，在一些示例中，文本元素可以經(jīng)由設(shè)備102的顯示器105提供給用戶101。在其它示例中，文本元素可以被保存到設(shè)備102的存儲器或遠(yuǎn)程云存儲器等。在一些示例中，設(shè)備102可以被描述為在此所使用的計(jì)算設(shè)備。圖2是根據(jù)本公開的至少一些實(shí)現(xiàn)方式所布置的用于提供語音識別的示例系統(tǒng)200的說明性示圖。如圖2中所示，系統(tǒng)200可以包括麥克風(fēng)104、特征提取模塊202、距離值計(jì)算模塊204、以及語音解碼器模塊206。在一些示例中，語音解碼器模塊206可以耦合到經(jīng)由存儲器實(shí)現(xiàn)的統(tǒng)計(jì)模型(未示出)，例如可以將統(tǒng)計(jì)模型與距離值205進(jìn)行比較以確定所識別的單詞序列207。如圖所示，麥克風(fēng)104可以從用戶101接收語音103。語音103可以是由用戶101發(fā)出的，并且麥克風(fēng)104可以接收語音103(例如，作為空氣中的聲波)并將語音103轉(zhuǎn)換為電信號(例如數(shù)字信號)，以生成語音記錄201。例如，語音記錄201可以存儲在存儲器(圖2中未示出)中。在其它示例中，可以預(yù)先記錄語音記錄201，并且系統(tǒng)200可以經(jīng)由另一設(shè)備接收語音記錄201。特征提取模塊202可以從麥克風(fēng)104或者從系統(tǒng)200的存儲器接收語音記錄201，并且特征提取模塊202可以生成與語音103相關(guān)聯(lián)的特征203。特征203可以包括表示語音103的任何合適的特征，并且特征203可以以任何合適的格式來表示，例如特征矢量格式等。例如，特征203可以是表示接收到的語音的功率譜的系數(shù)或者其它譜分析系數(shù)或參數(shù)。在一些示例中，特征203可以是Mel頻率倒譜系數(shù)(MFCC)。在一些示例中，特征提取模塊202可以處理語音記錄201的語音波形信號，以生成特征矢量。在經(jīng)由特征矢量來表示特征203的示例中，特征203中的每個特征矢量可以基于語音103(和/或語音記錄201)的時間窗口。例如，時間窗口可以是在語音記錄201上滑動的、語音記錄201的某一時間實(shí)例或記錄持續(xù)時間(例如，10毫秒等)。例如，特征203中的每個特征矢量可以由此基于對相關(guān)聯(lián)的時間窗口的評估(例如，功率譜分析等)來確定。此外，在一些示例中，特征203可以包括特征矢量堆棧(例如，來自多個時間實(shí)例的特征矢量)。特征203可以包括任何數(shù)量的特征。例如，特征203可以包括200至260個特征、250至300個特征、或者300至400個特征等。在實(shí)施例中，特征203包括253個特征。在另一實(shí)施例中，特征203包括256個特征。如在此進(jìn)一步討論的，可以將特征203提供給神經(jīng)網(wǎng)絡(luò)的輸入層。特征提取模塊202可以將特征203傳送到系統(tǒng)200的距離值計(jì)算模塊204和/或存儲器。距離值計(jì)算模塊204可以從特征提取模塊202或者從存儲器接收特征203。距離值計(jì)算模塊204可以將特征203作為至神經(jīng)網(wǎng)絡(luò)的輸入(例如，經(jīng)由預(yù)處理器(未示出)，或者經(jīng)由神經(jīng)網(wǎng)絡(luò)本身)。此外，在一些示例中，距離值計(jì)算模塊204可以經(jīng)由語音解碼器模塊206接收輸出索引。例如，特征203可以包括特征矢量堆棧，特征矢量堆?？梢园ó?dāng)前的特征矢量以及在當(dāng)前的特征矢量之前和/或之后的預(yù)定數(shù)量的特征矢量。在實(shí)施例中，特征203包括當(dāng)前的特征矢量、5個在前的特征矢量以及5個在后的特征矢量，總共11個特征矢量的堆棧。在一些示例中，每個特征矢量包括23個特征。在堆棧包括各自具有23個特征的11個特征矢量的示例中，至神經(jīng)網(wǎng)絡(luò)301的輸入的數(shù)量可以是253個輸入(例如，23×11個輸入)。在這種示例中，如在此進(jìn)一步討論的，經(jīng)由距離值計(jì)算模塊204實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)可以具有包含253個節(jié)點(diǎn)或神經(jīng)元的輸入層(例如，輸入層節(jié)點(diǎn)的數(shù)量等于至神經(jīng)網(wǎng)絡(luò)的輸入的數(shù)量)。在一些示例中，可以在每個時間實(shí)例(例如，對于如上所討論的每個時間窗口)將這些特征提供給距離值計(jì)算模塊204。如以下進(jìn)一步討論的，距離值計(jì)算模塊204可以實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)和/或距離值近似估計(jì)模塊，以生成距離值205。如所討論的，在實(shí)現(xiàn)按需距離技術(shù)的示例中，距離值計(jì)算模塊204可以從語音解碼器模塊206接收輸出索引208，并且距離值計(jì)算模塊204可以僅為與輸出索引208相關(guān)聯(lián)的那些提供距離值。在一些示例中，不利用按需距離，在這種示例中，可以不實(shí)現(xiàn)輸出索引208。此外，距離值計(jì)算模塊204可以實(shí)現(xiàn)跳幀技術(shù)，使得在一些時間實(shí)例處(例如，對于評估幀)經(jīng)由神經(jīng)網(wǎng)絡(luò)來提供距離值205，而在其它時間實(shí)例處(例如，對于跳過幀)經(jīng)由近似技術(shù)來提供距離205，該近似技術(shù)基于經(jīng)由神經(jīng)網(wǎng)絡(luò)評估的來自一個或多個在先幀的距離值。如圖所示，距離值計(jì)算模塊204可以將距離值205傳送到語音解碼器模塊206和/或傳送到系統(tǒng)200的存儲器。語音解碼器模塊206可以從距離值計(jì)算模塊204或者從存儲器接收距離值205。語音解碼器模塊206可以對距離值205進(jìn)行解碼，并搜索最可能的文本元素和/或所識別的單詞序列匹配。例如，語音解碼器模塊206可以針對每個時間實(shí)例(例如，10毫秒等)接收距離值205，并在檢測到語音結(jié)束之后傳遞所識別的單詞序列207。語音解碼器模塊206可以包括任何合適的語音解碼器。在示例中，語音解碼器模塊206是Viterbi束搜索解碼器。如圖所示，在一些示例中，語音解碼器模塊206可以提供所識別的單詞序列207作為輸出。所識別的單詞序列207可以被存儲到系統(tǒng)200的存儲器，和/或經(jīng)由顯示器105等來顯示給用戶101。在一些示例中，可以將所識別的單詞序列207提供給另一模塊或軟件應(yīng)用等，以便由該模塊或軟件應(yīng)用來使用。如在此所使用的所識別的單詞序列207或文本元素可以包括任何合適序列的單詞、子單詞單元、n元語法、音節(jié)、字母等。如圖所示，語音解碼器模塊206可以基于距離值20來生成所識別的單詞序列207。此外，在按需距離實(shí)現(xiàn)方式中，語音解碼器模塊206可以生成輸出索引208，并將這些輸出索引208提供給距離值計(jì)算模塊204。例如，輸出索引208可以指示在特定時間實(shí)例處所需的(例如，經(jīng)由距離值計(jì)算模塊204可獲得的)可用距離值的子集(例如，可用距離值中的一個或多個)。例如，在各種實(shí)施例中，語音解碼器模塊206在每個時間實(shí)例處可能不需要所有的可用距離值。如在圖2中所示，在一些示例中，距離值計(jì)算模塊204可以被實(shí)現(xiàn)為語音識別系統(tǒng)的一部分。然而，距離值計(jì)算模塊204可以實(shí)現(xiàn)在任何合適的系統(tǒng)中，例如感知計(jì)算系統(tǒng)、機(jī)器學(xué)習(xí)系統(tǒng)、認(rèn)知計(jì)算系統(tǒng)、圖像處理系統(tǒng)或者光字符識別系統(tǒng)等。此外，距離值計(jì)算模塊204的神經(jīng)網(wǎng)絡(luò)可以在經(jīng)由系統(tǒng)200實(shí)現(xiàn)之前，基于訓(xùn)練集等來進(jìn)行預(yù)先訓(xùn)練，以確定神經(jīng)網(wǎng)絡(luò)的權(quán)重和/或偏置。在一些示例中，預(yù)先訓(xùn)練可以經(jīng)由系統(tǒng)200本身來實(shí)現(xiàn)。在其它示例中，這種預(yù)先訓(xùn)練或其它預(yù)先實(shí)現(xiàn)步驟可以由單獨(dú)的系統(tǒng)來執(zhí)行。圖3是根據(jù)本公開的至少一些實(shí)現(xiàn)方式所布置的示例距離值計(jì)算模塊204的說明性示圖。如圖所示，距離值計(jì)算模塊204可以包括神經(jīng)網(wǎng)絡(luò)301、控制器302以及距離值近似估計(jì)模塊303。在圖3的實(shí)施例中，距離值計(jì)算模塊204可以實(shí)現(xiàn)使用距離值近似估計(jì)的跳幀，而不實(shí)現(xiàn)按需距離技術(shù)，并且因此，可以不用經(jīng)由距離值計(jì)算模塊204接收輸出索引。如圖所示，距離值計(jì)算模塊204可以經(jīng)由神經(jīng)網(wǎng)絡(luò)301接收特征203。神經(jīng)網(wǎng)絡(luò)301可以包括任何合適的神經(jīng)網(wǎng)絡(luò)，例如深度神經(jīng)網(wǎng)絡(luò)等。圖4是根據(jù)本公開的至少一些實(shí)現(xiàn)方式所布置的示例神經(jīng)網(wǎng)絡(luò)301的說明性示圖。如圖所示，神經(jīng)網(wǎng)絡(luò)301可以包括輸入層401、隱藏層402、403、404、405、以及輸出層406。此外，隱藏層405可以被表征為最末隱藏層，因?yàn)樗c輸出層406相鄰。還如圖所示，輸入層401可以包括輸入層節(jié)點(diǎn)407。如所討論的，輸入層401可以包括任何數(shù)量的輸入層節(jié)點(diǎn)407。例如，輸入層401可以包括數(shù)量等于元素特征203的數(shù)量的節(jié)點(diǎn)。例如，輸入層401可以具有253個或256個等輸入層節(jié)點(diǎn)407。此外，如在所示示例中那樣，神經(jīng)網(wǎng)絡(luò)301包括四個隱藏層402-405。然而，在其它示例中，神經(jīng)網(wǎng)絡(luò)可以包括三個、五個、六個、或者更多個隱藏層。隱藏層402-405可以包括任何數(shù)量的隱藏層節(jié)點(diǎn)408、409、410、411。例如，隱藏層402-405可以各自包括100至200個節(jié)點(diǎn)、200至300個節(jié)點(diǎn)等。在實(shí)施例中，神經(jīng)網(wǎng)絡(luò)301包括四個隱藏層402-405，其各自具有192個節(jié)點(diǎn)。在一些示例中，隱藏層402-405均具有相同數(shù)量的節(jié)點(diǎn)，而在其它示例中，隱藏層402-405中的一個或多個隱藏層可以具有不同數(shù)量的節(jié)點(diǎn)。輸出層406可以包括任何合適數(shù)量的輸出層節(jié)點(diǎn)412，使得距離值(DV)205包括用于進(jìn)行比較和/或搜索以確定文本元素或所識別的單詞序列等的值。例如，輸出層406可以包括400至800個節(jié)點(diǎn)、800至1500個節(jié)點(diǎn)、或1500至2500個節(jié)點(diǎn)，或者更多個節(jié)點(diǎn)。在實(shí)施例中，輸出層406包括512個輸出層節(jié)點(diǎn)412。在實(shí)施例中，輸出層406包括1015個輸出層節(jié)點(diǎn)412。在所示示例中，如圖所示，數(shù)據(jù)從左到右流動，從輸入層401流過隱藏層402-405，并流過輸出層406，使得輸入層401的輸出為隱藏層402的輸入，隱藏層402的輸出為隱藏層403的輸入，以此類推，并且輸出層405的輸出為神經(jīng)網(wǎng)絡(luò)301的輸出(例如，距離值205)。在一些示例中，一層中的每個節(jié)點(diǎn)可以連接到相鄰層中的每個節(jié)點(diǎn)(例如，各層可以是完全連接的)。在示例中，具有h個節(jié)點(diǎn)的層可以通過h×hh個權(quán)重來連接到它的具有hh個節(jié)點(diǎn)的相鄰層。在示例中，輸入層401具有253個輸入層節(jié)點(diǎn)407，隱藏層402-405各自具有192個隱藏層節(jié)點(diǎn)408-411，輸出層406具有1105個輸出層節(jié)點(diǎn)412，并且神經(jīng)網(wǎng)絡(luò)301具有約354000個權(quán)重。例如，輸入層401中的每個輸入層節(jié)點(diǎn)407可以連接到隱藏層402中的每個隱藏層節(jié)點(diǎn)408，隱藏層402中的每個隱藏層節(jié)點(diǎn)408可以連接到隱藏層403中的每個隱藏層節(jié)點(diǎn)409，以此類推。在其它示例中，可以沒有節(jié)點(diǎn)之間的某些連接。對神經(jīng)網(wǎng)絡(luò)301的評估(例如，計(jì)算)可以包括任何合適的一種或多種技術(shù)。例如，輸入層401中的輸入層節(jié)點(diǎn)407可以基于特征203、與特征203中的每個特征相關(guān)聯(lián)的權(quán)重、和/或每個輸入層節(jié)點(diǎn)407的激活函數(shù)來計(jì)算。在示例中，可以通過生成特征203與它們的相關(guān)聯(lián)的權(quán)重(例如，不同特征的權(quán)重可以不同)的乘積的加權(quán)和，并且將激活函數(shù)應(yīng)用于該加權(quán)和，來確定每個輸入層節(jié)點(diǎn)407。可以基于輸入層節(jié)點(diǎn)407、與每個輸入層節(jié)點(diǎn)407相關(guān)聯(lián)的權(quán)重(例如，輸入層節(jié)點(diǎn)407和隱藏層節(jié)點(diǎn)408的不同連接之間的權(quán)重可以不同)、用于每個隱藏層節(jié)點(diǎn)408的偏置、和/或用于每個隱藏層節(jié)點(diǎn)408的激活函數(shù)，來確定隱藏層節(jié)點(diǎn)408。在示例中，通過生成輸入層節(jié)點(diǎn)407與相關(guān)聯(lián)的權(quán)重的乘積的加權(quán)和，將偏置應(yīng)用于該加權(quán)和，并且將激活函數(shù)應(yīng)用于偏置的加權(quán)和，來確定每個隱藏層節(jié)點(diǎn)408。可以與隱藏層節(jié)點(diǎn)類似地確定隱藏層節(jié)點(diǎn)409、410、411，但是使用前一層作為相應(yīng)隱藏層的輸入。此外，可以基于最末隱藏層節(jié)點(diǎn)411、與每個最末隱藏層節(jié)點(diǎn)411相關(guān)聯(lián)的權(quán)重(例如，權(quán)重可以不同)、和/或用于每個輸出層節(jié)點(diǎn)412的偏置，來確定輸出層節(jié)點(diǎn)。在示例中，通過生成最末隱藏層節(jié)點(diǎn)411與相關(guān)聯(lián)的權(quán)重的乘積的加權(quán)和，并且將偏置應(yīng)用于該加權(quán)和，來確定每個輸出層節(jié)點(diǎn)412。如所討論的，可以使用其它技術(shù)來評估神經(jīng)網(wǎng)絡(luò)301的節(jié)點(diǎn)，并且在此所討論的技術(shù)不限于任何一種或多種神經(jīng)網(wǎng)絡(luò)評估技術(shù)。在一些示例中，在已經(jīng)在訓(xùn)練階段訓(xùn)練了神經(jīng)網(wǎng)絡(luò)301之后，可以在測試或?qū)崿F(xiàn)階段針對語音識別而實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)301。這種訓(xùn)練階段可以確定神經(jīng)網(wǎng)絡(luò)301的節(jié)點(diǎn)的權(quán)重、神經(jīng)網(wǎng)絡(luò)301的節(jié)點(diǎn)的偏置等。在一些示例中，在神經(jīng)網(wǎng)絡(luò)301的交叉熵訓(xùn)練期間(例如，在訓(xùn)練階段期間)，輸出層406可以具有softmax(柔性最大值)激活函數(shù)，在實(shí)現(xiàn)或測試階段期間，可以省略該函數(shù)。在一些示例中，在實(shí)現(xiàn)期間，來自輸出層406的輸出在被提供作為距離值304之前，可以基于分類概率進(jìn)行縮放(scale)。還如圖4中所示，神經(jīng)網(wǎng)絡(luò)301可以在控制器302經(jīng)由神經(jīng)網(wǎng)絡(luò)(NN)控制信號305的控制之下進(jìn)行操作。例如，在如所討論的跳幀實(shí)現(xiàn)方式中，神經(jīng)網(wǎng)絡(luò)控制信號305可以控制是否在特定時間實(shí)例處評估神經(jīng)網(wǎng)絡(luò)301。例如，對于評估幀，神經(jīng)網(wǎng)絡(luò)控制信號305可以用信號告知對神經(jīng)網(wǎng)絡(luò)301進(jìn)行評估，而對于跳過幀，神經(jīng)網(wǎng)絡(luò)控制信號305可以用信號告知不對神經(jīng)網(wǎng)絡(luò)301進(jìn)行評估。回到圖3，如所討論的，對于評估幀或時間實(shí)例，控制器302可以向神經(jīng)網(wǎng)絡(luò)301提供神經(jīng)網(wǎng)絡(luò)控制信號305，以便對神經(jīng)網(wǎng)絡(luò)301進(jìn)行評估。在這種時間實(shí)例下或者對于這種幀，神經(jīng)網(wǎng)絡(luò)301可以基于特征203以及神經(jīng)網(wǎng)絡(luò)301的用于生成距離值304的其它特性(例如，權(quán)重、偏置、激活函數(shù)等)來生成距離值304，如圖所示，距離值304可以提供用于這種評估幀或時間實(shí)例，作為距離值205。在這種評估幀或者時間實(shí)例期間，控制器302還可以用信號告知距離值近似估計(jì)模塊303，將不進(jìn)行近似估計(jì)。如圖所示，還可以將距離值304提供給距離值近似估計(jì)模塊303，以便在后續(xù)時間實(shí)例中使用。對于跳過幀，控制器302可以提供神經(jīng)網(wǎng)絡(luò)控制信號305，指示不對神經(jīng)網(wǎng)絡(luò)301進(jìn)行評估。此外，控制器302可以向距離值近似估計(jì)模塊303提供如下指示：對于這種跳過幀或者與跳過幀相關(guān)聯(lián)的時間實(shí)例，將經(jīng)由距離值近似估計(jì)控制信號306生成距離值307。例如，在這種時間實(shí)例處，可以不評估神經(jīng)網(wǎng)絡(luò)301(例如，其可以是關(guān)閉的)，從而節(jié)省大量的計(jì)算資源。此外，在這種時間實(shí)例處，可以提供距離值205作為近似距離值307。例如，特征203隨時間可能是高度相關(guān)的，并且因此，特征203中的連續(xù)的特征矢量可能是基本上類似的。此外，如果針對這類特征進(jìn)行完全評估，則神經(jīng)網(wǎng)絡(luò)301將隨時間提供基本上類似的或相關(guān)的距離值。可以利用這種隨時間的相似性來避免如這里所討論的在每個時間實(shí)例處都評估神經(jīng)網(wǎng)絡(luò)301(例如，使得可以實(shí)現(xiàn)跳幀)。例如，可以針對每第N個幀而不是每個幀來評估神經(jīng)網(wǎng)絡(luò)301，其中N＝2、3、4或更大，并且可以使用來自先前評估的時間實(shí)例(例如，評估幀)的距離值來近似估計(jì)這種跳過幀的距離值。圖5示出根據(jù)本公開的至少一些實(shí)現(xiàn)方式所布置的評估和跳幀的示例時間線500。在圖5中，時間線500的x軸示出隨示例的時間實(shí)例0、1、2、3、4和5增加的時間。如圖所示，在時間實(shí)例0、2、4處，可以經(jīng)由神經(jīng)網(wǎng)絡(luò)(例如神經(jīng)網(wǎng)絡(luò)301)生成評估幀501、502、503。此外，圖5示出示例的神經(jīng)網(wǎng)絡(luò)確定的距離值504、505。例如，神經(jīng)網(wǎng)絡(luò)確定的距離值504、505都可以與輸出層節(jié)點(diǎn)412的輸出節(jié)點(diǎn)相關(guān)聯(lián)。例如，距離值504可以是節(jié)點(diǎn)在時間t＝0處的輸出，而距離值505可以是節(jié)點(diǎn)在時間t＝2處的輸出。圖5還示出近似(例如，跳過)幀506、507、508。例如，在時間實(shí)例1、3、5處，可以經(jīng)由距離值近似估計(jì)模塊303，基于神經(jīng)網(wǎng)絡(luò)確定的針對先前評估幀501、502、503的距離值來生成近似幀506、507、508。例如，圖5示出基于神經(jīng)網(wǎng)絡(luò)確定的距離值504、505來確定的近似距離值509。近似距離值509可以使用任何合適的一種或多種近似技術(shù)來確定。近似距離值509可以與輸出層節(jié)點(diǎn)412中的同一輸出節(jié)點(diǎn)相關(guān)聯(lián)(例如，盡管近似距離值509是近似估計(jì)的并且不是神經(jīng)網(wǎng)絡(luò)301的輸出)。在所示示例中，近似距離值509是基于使用兩個先前的神經(jīng)網(wǎng)絡(luò)確定的距離值504、505進(jìn)行外推來確定的。例如，近似距離值509可以基于先前的神經(jīng)網(wǎng)絡(luò)確定的距離值504、505來外推，并且如圖所示，用于先前的神經(jīng)網(wǎng)絡(luò)確定的距離值505的時間實(shí)例可以在用于近似距離值509的時間實(shí)例之前，并且用于先前的神經(jīng)網(wǎng)絡(luò)確定的距離值504的時間實(shí)例可以在用于先前的神經(jīng)網(wǎng)絡(luò)確定的距離值505的時間實(shí)例之前。在其它示例中，可以使用僅一個先前的神經(jīng)網(wǎng)絡(luò)確定的距離值(例如，先前的神經(jīng)網(wǎng)絡(luò)確定的距離值505)來確定近似距離值509。在另其它示例中，可以使用僅三個或更多個先前的神經(jīng)網(wǎng)絡(luò)確定的距離值來確定近似距離值509。盡管關(guān)于外推技術(shù)進(jìn)行闡述和討論，但是，可以使用內(nèi)插技術(shù)來確定近似距離值509(例如，基于先前的神經(jīng)網(wǎng)絡(luò)確定的距離值505和類似后續(xù)的來自后續(xù)評估幀503的神經(jīng)網(wǎng)絡(luò)確定的距離值)。在一些示例中，可以使用線性外推技術(shù)來確定近似距離值509。例如，可以基于將先前的神經(jīng)網(wǎng)絡(luò)確定的距離值505加上先前的神經(jīng)網(wǎng)絡(luò)確定的距離值505與先前的神經(jīng)網(wǎng)絡(luò)確定的距離值504之間的差的一半，來確定近似距離值509。在一些示例中，可以如下在公式(1)中確定近似距離值509：o(3)＝o(2)+0.5×(o(2)-o(0))(1)這里，o(3)可以是近似距離值509，o(2)可以是先前的神經(jīng)網(wǎng)絡(luò)確定的距離值505，o(0)可以是先前的神經(jīng)網(wǎng)絡(luò)確定的距離值504。如在圖5中所示，在一些示例中，每隔一個幀可以是近似幀或跳過幀(例如，每第N個幀，這樣N＝2)。例如，可以經(jīng)由模運(yùn)算來實(shí)現(xiàn)這種跳幀，這里N＝2，并且如果時間實(shí)例模2為零，則幀為評估幀。在其它示例中，每第三個幀(例如，N＝3)、每第四個幀(例如，N＝4)或每第五個幀(例如，N＝5)等可以是近似幀或者跳過幀。在另其它示例中，可以探試性地確定跳幀圖案，使得基于語音解碼器系統(tǒng)206的精度需求等來增加或減少跳過幀的數(shù)量。例如，控制器302可以基于語音解碼器系統(tǒng)206的精度需求、語音解碼器系統(tǒng)206的可用計(jì)算資源、或者當(dāng)前的實(shí)時因子中的一個或多個來確定跳幀圖案或跳幀速率。例如，實(shí)時因子可以測量語音解碼器系統(tǒng)206的速度(例如，如果耗費(fèi)時間P來處理持續(xù)時間為I的輸入，則實(shí)時因子RTF可以定義為P/I)。在一些示例中，可以基于語音解碼器系統(tǒng)206的精度需求、語音解碼器系統(tǒng)206的可用計(jì)算資源、或者當(dāng)前的實(shí)時因子等來動態(tài)地確定或調(diào)整跳幀速率。例如，如果需要更大的精度，則可以減少跳幀速率，如果沒有計(jì)算資源，則可以增加跳幀速率，或者如果當(dāng)前的實(shí)時因子太高或正在增加，則可以增加跳幀速率。在一些示例中，可以將所有三個因子和/或附加的因子用于經(jīng)由控制器302或系統(tǒng)200的另一模塊來確定跳幀速率?？梢越?jīng)由控制器302來實(shí)現(xiàn)跳幀速率，以控制神經(jīng)網(wǎng)絡(luò)301和距離值近似估計(jì)模塊303，如在此所討論的。例如，增加跳幀速率可以包括在評估幀與跳過幀之間提供一個或多個附加的跳過幀，而減少跳幀速率可以包括從評估幀與跳過幀之間移去一個或多個附加的跳過幀。此外，如所討論的，可以將線性外推用于確定近似距離值509。在其它示例中，可以基于非線性函數(shù)或方差函數(shù)等來執(zhí)行外推。在一些示例中，可以使用同一近似技術(shù)(例如，線性外推)來確定近似幀的所有距離值，而在其它示例中，可以使用不同的近似技術(shù)(例如，一些是線性的，一些是非線性的)來確定近似幀的距離值。此外，圖5將t＝1幀506示為近似幀。例如，幀506可能僅具有前一評估幀501作為參考，并且因此，幀506可以被近似為等于前一評估幀501。在其它示例中，可以經(jīng)由對神經(jīng)網(wǎng)絡(luò)301進(jìn)行評估來確定t＝1幀506。如本文在別處所討論的，可以將評估幀501、502、503保存在存儲器中，以便檢索和生成近似幀506、507、508。此外，對于實(shí)時語音識別結(jié)果，可以在運(yùn)行中進(jìn)行包括線性外推技術(shù)在內(nèi)的這類外推技術(shù)。圖6是根據(jù)本公開的至少一些實(shí)現(xiàn)方式所布置的示出用于使用跳幀和距離值近似估計(jì)來確定距離值的示例過程600的流程圖。過程600可以包括如在圖6中所示的一個或多個操作601-608。過程600可以由諸如設(shè)備102的設(shè)備或遠(yuǎn)程服務(wù)器等來執(zhí)行。如在此所討論的，過程600可以用于確定和提供距離值，以便由語音解碼器使用。例如，過程600可以由控制器302、神經(jīng)網(wǎng)絡(luò)301和距離值近似估計(jì)模塊303來實(shí)現(xiàn)。如圖所示，過程600可以開始于開始操作601，并且過程600可以繼續(xù)于判斷操作602，“評估幀或跳過幀”，在這里，可以關(guān)于當(dāng)前幀是評估幀還是跳過幀進(jìn)行確定。例如，控制器302可以確定當(dāng)前幀是評估幀還是跳過幀。如圖所示，如果當(dāng)前幀是評估幀，則過程600可以繼續(xù)于操作603，“評估神經(jīng)網(wǎng)絡(luò)以確定距離值”，在這里，可以基于對神經(jīng)網(wǎng)絡(luò)的評估來為當(dāng)前幀確定距離值。例如，在操作603處，可以由如經(jīng)由距離值計(jì)算模塊204實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)301來確定距離值304。如果當(dāng)前幀是跳過幀，則過程600可以繼續(xù)于操作604，“基于在先幀的距離值來近似估計(jì)距離值”，在這里，可以基于在先神經(jīng)網(wǎng)絡(luò)計(jì)算出的幀的距離值來近似估計(jì)距離值。例如，如在此所討論的，可以使用線性外推來近似估計(jì)距離值。在示例中，在操作604處，可以由如經(jīng)由距離值計(jì)算模塊204實(shí)現(xiàn)的距離值近似估計(jì)模塊303來確定距離值307。如圖所示，在評估幀或跳過幀的情況下，過程600可以繼續(xù)于操作605，“提供距離值”，在這里，如在此所討論的，可以將距離值提供給語音解碼器，以用于確定文本元素序列。例如，距離值計(jì)算模塊204可以提供距離值205(例如，包括距離值304或距離值307，這取決于幀類型)給語音解碼器模塊206，以用于生成所識別的單詞序列207。過程600可以繼續(xù)于判斷操作606，“最后的時間實(shí)例/幀？”，在這里，可以關(guān)于當(dāng)前幀是否是最后的幀進(jìn)行確定。如果當(dāng)前幀不是最后的幀，則過程600可以繼續(xù)于操作607，“轉(zhuǎn)到下一時間實(shí)例/幀”，在這里，如圖所示，過程600可以在判斷操作602處繼續(xù)以下一幀的下一時間實(shí)例。如果當(dāng)前幀是最后的幀，則過程600可以結(jié)束于結(jié)束操作608。如所討論的，包括神經(jīng)網(wǎng)絡(luò)301、控制器302和距離值近似估計(jì)模塊303的距離值計(jì)算模塊204可以實(shí)現(xiàn)跳幀，以顯著減少自動語音識別實(shí)現(xiàn)中的計(jì)算負(fù)荷。這種實(shí)現(xiàn)方式在各種計(jì)算環(huán)境中可以提供快速且精確的語音識別結(jié)果。例如，這種跳幀技術(shù)可以使計(jì)算成本降低50％或者更多，而不損失精度。此外，可以通過在運(yùn)行之前設(shè)定跳過幀的數(shù)量，或者在運(yùn)行期間通過在處理期間調(diào)整跳過幀的數(shù)量，來進(jìn)行速度與精度之間的折衷。此外，相比于現(xiàn)有的跳幀或多幀神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)方式，所描述的跳幀技術(shù)不需要在實(shí)現(xiàn)之前調(diào)整或優(yōu)化神經(jīng)網(wǎng)絡(luò)，或者不需要附加的專用訓(xùn)練的知識源(例如，用于訓(xùn)練神經(jīng)網(wǎng)絡(luò))。表1示出所描述的跳幀技術(shù)的示例結(jié)果。表1：單詞錯誤率增加的比較表1提供了針對所有測試使用相同的語音識別引擎的結(jié)果。報(bào)告的結(jié)果表示總共基于共約25000個言語的六個識別實(shí)驗(yàn)的平均值。在表1的結(jié)果中，使用距離值近似估計(jì)的跳幀是基于如關(guān)于公式(1)所討論的，基于兩個在先神經(jīng)網(wǎng)絡(luò)距離進(jìn)行的線性外推。如所示的，對于現(xiàn)有的跳幀技術(shù)，單詞錯誤率從基線(例如，在N＝1處，沒有跳幀)不斷地增加到N＝4的跳幀時的8％。借助所討論的技術(shù)，在N＝2和N＝3的跳幀下沒有錯誤率的增加。對于N＝4，使用利用線性外推進(jìn)行距離值近似估計(jì)時的單詞錯誤率的增加為4％，其為基于現(xiàn)有的跳幀技術(shù)的增加量的一半。例如，在N＝3處，使用所討論的帶距離值近似估計(jì)的跳幀技術(shù)的自動語音識別系統(tǒng)可以將計(jì)算成本降低超過50％，而不損失精度。例如，神經(jīng)網(wǎng)絡(luò)對自動語音識別系統(tǒng)的整體占位(footprint)可能占70％之多，這種神經(jīng)網(wǎng)絡(luò)的使用的減少可以顯著減少自動語音識別系統(tǒng)的計(jì)算占位。此外，偽碼(1)提供了用于提供使用線性近似估計(jì)的跳幀的示例過程。偽碼(1)：如在偽碼(1)中所示，對于非跳過幀(例如，評估幀)，時間幀(例如，時間實(shí)例或幀)和跳幀速率(例如，N值)的取?？梢允?，并且對于這種時間幀，可以通過評估神經(jīng)網(wǎng)絡(luò)(例如，compute_DNN)來確定距離值(例如，輸出)。對于跳過幀，時間幀和跳幀速率的取模可以是非零的，并且可以確定先前的評估幀的索引(例如，經(jīng)由偽碼(1)中的s和p)。接著，可以通過將因子(例如，fac)應(yīng)用先之前確定的神經(jīng)網(wǎng)絡(luò)輸出之間的增量(delta)，并且將該增量與最新的先前確定的神經(jīng)網(wǎng)絡(luò)輸出相加，來基于先前確定的神經(jīng)網(wǎng)絡(luò)輸出而確定跳過幀的距離值。例如，因子可以基于跳過幀相對于在先神經(jīng)網(wǎng)絡(luò)計(jì)算幀的位置。在使用N＝1的公式(1)的示例中，因子可以例如為0.5，因?yàn)槿∧?例如，m)為1并且跳幀速率(例如，N)為2。在評估幀之間具有更多跳過幀的示例中，因子可以取決于評估幀與跳過幀多接近而變化。例如，如果N＝3并且跳過幀緊接評估幀之后，則因子可以是1/3，而如果跳過幀是評估幀之后的第二個跳過幀，則因子例如可以是2/3。如所討論的，包括神經(jīng)網(wǎng)絡(luò)301、控制器302和距離值近似估計(jì)模塊303的距離值計(jì)算模塊204可以實(shí)現(xiàn)跳幀，以顯著減少自動語音識別實(shí)現(xiàn)中的計(jì)算負(fù)荷。在其它實(shí)施例中，這種跳幀技術(shù)可以與按需距離技術(shù)結(jié)合。圖7是根據(jù)本公開的至少一些實(shí)現(xiàn)方式所布置的示例距離值計(jì)算模塊204的說明性示圖。如所討論的，距離值計(jì)算模塊204可以包括神經(jīng)網(wǎng)絡(luò)301、控制器302和距離值近似估計(jì)模塊303。在圖7的實(shí)施例中，距離值計(jì)算模塊204可以實(shí)現(xiàn)使用距離值近似估計(jì)的跳幀技術(shù)和按需距離技術(shù)。例如，距離值計(jì)算模塊204可以從語音解碼器模塊206接收輸出索引208(請參見圖2)。在這種示例中，距離值計(jì)算模塊204和語音解碼器模塊206可以是雙向耦合的。這種輸出索引208可以包括在特定時間實(shí)例處(或者，對于特定幀等)語音解碼器模塊206正在請求哪些距離值(例如，輸出)的指示符。輸出索引208可以包括任何合適的指示符，例如與輸出層節(jié)點(diǎn)412相關(guān)聯(lián)的指示符，和/或?yàn)檎埱笾甘緯r間實(shí)例的時間戳。如圖所示，距離值計(jì)算模塊204可以經(jīng)由神經(jīng)網(wǎng)絡(luò)301接收特征203，并且經(jīng)由控制器302接收輸出索引208。神經(jīng)網(wǎng)絡(luò)301可以包括任何合適的神經(jīng)網(wǎng)絡(luò)，例如深度神經(jīng)網(wǎng)絡(luò)等。例如，神經(jīng)網(wǎng)絡(luò)301可以包括如在此所討論的任何神經(jīng)網(wǎng)絡(luò)。圖8是根據(jù)本公開的至少一些實(shí)現(xiàn)方式所布置的示例神經(jīng)網(wǎng)絡(luò)301的說明性示圖。如圖所示，神經(jīng)網(wǎng)絡(luò)301可以包括輸入層401、隱藏層402、403、404、405、以及輸出層406。此外，如所討論的，隱藏層405可以被表征為最末隱藏層，因?yàn)樗c輸出層406相鄰。還如圖所示，輸入層401可以包括輸入層節(jié)點(diǎn)407，隱藏層402、403、404可以分別包括隱藏層節(jié)點(diǎn)408、409、410，最末隱藏層405可以包括最末隱藏層節(jié)點(diǎn)411。此外，輸出層406可以包括輸出層節(jié)點(diǎn)412。神經(jīng)網(wǎng)絡(luò)301的特性已經(jīng)關(guān)于圖4進(jìn)行了討論，并且為了簡要起見，將不再重復(fù)。回到圖7，控制器302可以接收輸出索引208?？刂破?02還可以確定當(dāng)前的時間實(shí)例是否與評估幀或跳過幀相關(guān)聯(lián)。如果當(dāng)前的時間實(shí)例與評估幀相關(guān)聯(lián)(例如，使得將要基于評估神經(jīng)網(wǎng)絡(luò)301來確定距離值)，則控制器302可以將神經(jīng)網(wǎng)絡(luò)(NN)控制信號305提供到神經(jīng)網(wǎng)絡(luò)301。神經(jīng)網(wǎng)絡(luò)控制信號305可以指示將要在當(dāng)前的時間實(shí)例處評估神經(jīng)網(wǎng)絡(luò)，并且指示距離值被請求的輸出節(jié)點(diǎn)。例如，輸出索引208可以指示所有可用距離值的子集，并且神經(jīng)網(wǎng)絡(luò)可以僅被請求提供這些距離值。在這種評估幀示例中，神經(jīng)網(wǎng)絡(luò)301可以評估網(wǎng)絡(luò)的所有層，直到最末隱藏層405。例如，為了評估輸出層節(jié)點(diǎn)412的甚至一個輸出節(jié)點(diǎn)，可能需要評估所有層直到最末隱藏層405?；氐綀D8，如圖所示，在這種示例中，神經(jīng)網(wǎng)絡(luò)301可以評估所有的輸入層節(jié)點(diǎn)407、隱藏層節(jié)點(diǎn)408、409、410、以及最末隱藏層節(jié)點(diǎn)411。經(jīng)由最末隱藏層節(jié)點(diǎn)411確定的最末隱藏層值可以被保存在存儲器中，以便將來使用，如在此關(guān)于跳過幀示例進(jìn)一步討論的。此外，神經(jīng)網(wǎng)絡(luò)301可以僅評估(例如，經(jīng)由輸出索引208)被請求的那些輸出層節(jié)點(diǎn)412。輸出層406還可以包括不評估的輸出層節(jié)點(diǎn)801-805，使得不評估的輸出層節(jié)點(diǎn)801-805(例如，圖8中黑色的那些)不被計(jì)算，而僅計(jì)算所請求的輸出層節(jié)點(diǎn)412(例如，白色的那些)?；氐綀D7，神經(jīng)網(wǎng)絡(luò)301可以提供經(jīng)由控制器302請求的距離值，作為所請求的距離值(RDV)701，所請求的RDV701可以經(jīng)由距離值計(jì)算模塊204作為距離值205的一部分提供給語音解碼器模塊206(請參見圖2)。如所討論的，如果當(dāng)前幀是評估幀，則可以實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)301以確定所請求的距離值701。而如果當(dāng)前幀(或后續(xù)幀)是跳過幀，則控制器302可以提供距離值近似估計(jì)控制信號306給距離值近似估計(jì)模塊303，請求對經(jīng)由輸出索引208請求的距離值進(jìn)行近似估計(jì)。然而，如在此所討論的，距離值近似估計(jì)模塊303可以基于經(jīng)由神經(jīng)網(wǎng)絡(luò)301計(jì)算的先前的距離值來生成近似距離值。此外，如關(guān)于評估幀示例所討論的，可以僅評估神經(jīng)網(wǎng)絡(luò)輸出層節(jié)點(diǎn)的子集，并且可以僅提供神經(jīng)網(wǎng)絡(luò)確定的距離值的對應(yīng)子集。如果跳過幀請求的輸出索引208對應(yīng)于在先前的評估幀處確定的距離值，則距離值近似估計(jì)模塊303可以使用這種先前確定的距離值來經(jīng)由如在此所討論的近似技術(shù)生成所請求的距離值702。然而，如果(例如，經(jīng)由神經(jīng)網(wǎng)絡(luò)301)沒有提供這種先前確定的距離值(例如，它們沒有被預(yù)先計(jì)算并經(jīng)由存儲器保存)，則控制器302可以經(jīng)由神經(jīng)網(wǎng)絡(luò)控制信號305將請求提供給神經(jīng)網(wǎng)絡(luò)301，以確定先前幀的所需距離值。例如，神經(jīng)網(wǎng)絡(luò)301可以加載所保存的先前評估幀的最末隱藏層值，并且評估新請求的輸出層406的節(jié)點(diǎn)。例如，參見圖8，現(xiàn)在可能需要與先前未請求的輸出層節(jié)點(diǎn)804相關(guān)聯(lián)的距離值來近似估計(jì)(當(dāng)前)跳過幀的距離值。神經(jīng)網(wǎng)絡(luò)301可以評估所請求的節(jié)點(diǎn)，并且將所請求的距離值701提供給距離值近似估計(jì)模塊303，如在圖7中所示?？梢葬槍θ魏螖?shù)量的所需的神經(jīng)網(wǎng)絡(luò)確定的距離值以及針對任何數(shù)量的先前評估幀(例如，通常是兩個先前評估幀)而重復(fù)這種過程。回到圖7，距離值近似估計(jì)模塊303現(xiàn)在在具有所需要的神經(jīng)網(wǎng)絡(luò)確定的距離值的情況下，可以生成當(dāng)前跳過幀的所請求的距離值702。例如，距離值近似估計(jì)模塊303可以使用如在此所描述的基于線性函數(shù)、非線性函數(shù)或方差函數(shù)的外推技術(shù)或者內(nèi)插技術(shù)來確定這種所請求的距離值702。距離值近似估計(jì)模塊303可以使用在此所討論的任何技術(shù)或特性來確定這種所請求的距離值702，并且為簡要起見，這些技術(shù)或特性將不再重復(fù)。參見圖2，語音解碼器模塊206可以接收這種(所請求的)距離值205，并且可以繼續(xù)于對所識別的單詞序列進(jìn)行解碼和/或搜索。此外，語音解碼器模塊206可以針對下一時間幀生成輸出索引208，輸出索引208可以指示語音解碼器針對下一幀繼續(xù)所描述的解碼/搜索所需要的距離值205。例如，語音解碼器模塊206可以是Viterbi束搜索或裁剪(pruning)語音解碼器，其可以限制被評估的假設(shè)的數(shù)量或庫存，使得可用距離值的子集可以用于有效地搜索所識別的單詞序列207或者其一部分。圖9是根據(jù)本公開的至少一些實(shí)現(xiàn)方式所布置的示出用于使用跳幀、按需距離和距離值近似估計(jì)來確定距離值的示例過程900的流程圖。過程900可以包括如圖9中所示的一個或多個操作901-913。過程900可以由諸如設(shè)備102的設(shè)備或遠(yuǎn)程服務(wù)器等來執(zhí)行。過程900可以用于確定并提供距離值，以便由語音解碼器使用，如在此所討論的。例如，過程900可以由控制器302、神經(jīng)網(wǎng)絡(luò)301和距離值近似估計(jì)模塊303來實(shí)現(xiàn)。如圖所示，過程900可以開始于開始操作901，并且過程900可以繼續(xù)于操作902，“接收用于時間實(shí)例/幀的輸出索引”，在這里，可以為當(dāng)前的時間實(shí)例或幀而接收輸出索引。例如，語音解碼器模塊206可以生成輸出索引208，輸出索引208可以被提供給距離值計(jì)算模塊204并且由其接收。過程900可以繼續(xù)于判斷操作903，“評估幀或跳過幀”，在這里，可以關(guān)于當(dāng)前幀是評估幀還是跳過幀進(jìn)行確定。例如，控制器302可以使用跳幀速率，基于取模運(yùn)算來確定當(dāng)前幀是評估幀還是跳過幀。如圖所示，如果當(dāng)前幀是評估幀，則過程900可以繼續(xù)于操作904，“評估神經(jīng)網(wǎng)絡(luò)直到最末隱藏層”，在這里，可以對神經(jīng)網(wǎng)絡(luò)進(jìn)行評估直到最末隱藏層。例如，可以從輸入層401到最末隱藏層405完全地評估神經(jīng)網(wǎng)絡(luò)301。過程900可以繼續(xù)于操作905，“經(jīng)由與輸出索引相關(guān)聯(lián)的輸出層節(jié)點(diǎn)來確定距離值”，在這里，可以評估神經(jīng)網(wǎng)絡(luò)的輸出層節(jié)點(diǎn)，以確定與輸出索引相關(guān)聯(lián)的距離值(例如，所請求的距離值)。例如，使用神經(jīng)網(wǎng)絡(luò)301，可以評估輸出層406中的輸出層節(jié)點(diǎn)412的子集，以確定所請求的距離值。例如，在操作905處，所請求的距離值701可以由如經(jīng)由距離值計(jì)算模塊204實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)301來確定。過程900可以繼續(xù)于操作906，“保存最末隱藏層值和距離值”，在這里，可以保存與神經(jīng)網(wǎng)絡(luò)的最末隱藏層相關(guān)聯(lián)的最末隱藏層值和神經(jīng)網(wǎng)絡(luò)確定的距離值，以便將來使用。例如，如在此進(jìn)一步討論的，可以經(jīng)由存儲器來保存經(jīng)由神經(jīng)網(wǎng)絡(luò)301的最末隱藏層節(jié)點(diǎn)411確定的最末隱藏層值，以便在對后續(xù)距離值進(jìn)行近似估計(jì)時使用。類似地，可以保存經(jīng)由輸出層406的激活子集確定的距離值，以便在對后續(xù)距離值進(jìn)行近似估計(jì)時使用。當(dāng)不再需要時(例如，當(dāng)當(dāng)前幀可能不再調(diào)用這種評估幀進(jìn)行距離值近似估計(jì)時)，可以丟棄這些保存的最末隱藏層值和神經(jīng)網(wǎng)絡(luò)確定的距離值。如果當(dāng)前幀是跳過幀，則過程900可以繼續(xù)于操作907，“獲取最末隱藏層值和/或在先幀的距離值”，在這里，可以獲取最末隱藏層值和/或在先的神經(jīng)網(wǎng)絡(luò)確定的距離值(如在操作906處保存的)。例如，可以經(jīng)由控制器302或距離值近似估計(jì)模塊303從存儲器中獲取這些值。例如，如果當(dāng)前幀的多個輸出索引中的輸出索引與先前的神經(jīng)網(wǎng)絡(luò)確定的距離值相關(guān)聯(lián)，則可以獲取這種先前的神經(jīng)網(wǎng)絡(luò)確定的距離值。如果當(dāng)前幀的多個輸出索引中的輸出索引值與先前未確定的神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)相關(guān)聯(lián)，則可以獲取最末隱藏層值。過程900可以繼續(xù)于操作908，“根據(jù)需要，經(jīng)由相關(guān)聯(lián)的輸出層節(jié)點(diǎn)來確定在先距離值”，在這里，可以經(jīng)由相關(guān)聯(lián)的輸出層節(jié)點(diǎn)，為輸出索引確定在先距離值。例如，對于當(dāng)前為近似估計(jì)所需的、但是先前沒有經(jīng)由神經(jīng)網(wǎng)絡(luò)確定的距離值，可以經(jīng)由神經(jīng)網(wǎng)絡(luò)的輸出層節(jié)點(diǎn)來確定這種距離值。例如，在操作907處獲取到的最末隱藏層值可以用于評估輸出層406的(例如，一個或多個)輸出層節(jié)點(diǎn)412的子集。在一些示例中，可能已經(jīng)在操作906處保存了這種距離值，并且可以跳過操作908。過程900可以繼續(xù)于操作909，“基于在先距離值來近似估計(jì)與輸出索引相關(guān)聯(lián)的距離值”，在這里，可以基于在先的神經(jīng)網(wǎng)絡(luò)計(jì)算的距離值來近似估計(jì)距離值。如所討論的，近似距離值可以是與接收到的輸出索引相關(guān)聯(lián)的那些距離值，并且如所討論的，可以經(jīng)由操作906保存或者經(jīng)由操作908確定在先距離值。例如，如在此討論的，可以使用線性外推來近似距離值。在示例中，可以在操作909處由如經(jīng)由距離值計(jì)算模塊204實(shí)現(xiàn)的距離值近似估計(jì)模塊303來確定所請求的距離值702。如圖所示，在評估幀或跳過幀的情況下，過程900可以繼續(xù)于操作910，“提供距離值”，在這里，可以將距離值提供給語音解碼器以用于確定文本元素序列，如在此討論的。例如，距離值計(jì)算模塊204可以提供距離值205(例如，包括所請求的距離值701或所請求的距離值702，這取決于幀類型)給語音解碼器模塊206，以用于生成所識別的單詞序列207。過程900可以繼續(xù)于判斷操作911，“最后的時間實(shí)例/幀？”，在這里，可以關(guān)于當(dāng)前幀是否是最后的幀進(jìn)行確定。如果當(dāng)前幀不是最后的幀，則過程900可以繼續(xù)于操作912，“轉(zhuǎn)到下一時間實(shí)例/幀”，在這里，如所示的，過程900可以在操作902處繼續(xù)以下一幀的下一時間實(shí)例。如果當(dāng)前幀是最后的幀，則過程900可以結(jié)束于結(jié)束操作913。如所討論的，包括神經(jīng)網(wǎng)絡(luò)301、控制器302和距離值近似估計(jì)模塊303的距離值計(jì)算模塊204可以實(shí)現(xiàn)跳幀和按需距離，以顯著減少自動語音識別實(shí)現(xiàn)中的計(jì)算負(fù)荷。在一些示例中，可以在不實(shí)現(xiàn)這種跳幀技術(shù)的情況下實(shí)現(xiàn)這種按需距離技術(shù)。例如，參照圖7，可以在沒有距離值近似估計(jì)模塊303的情況下實(shí)現(xiàn)距離值計(jì)算模塊204，并且對于每個時間實(shí)例或幀，控制器302可以控制神經(jīng)網(wǎng)絡(luò)僅提供與輸出索引208相關(guān)聯(lián)的那些距離值(例如，所請求的距離值701)。參照圖9，這種按需距離處理可以包括操作902、904、905、910、911、912和913，使得可以接收輸出索引，可以對神經(jīng)網(wǎng)絡(luò)進(jìn)行完全評估直到最末隱藏層，可以僅評估輸出層節(jié)點(diǎn)的與輸出索引對應(yīng)的子集，并且可以將所確定的距離值(例如，所述子集)提供給語音解碼器。這種處理可以不需要保存最末隱藏層值或者距離值，例如以便將來使用，也不需要實(shí)現(xiàn)提供跳幀技術(shù)的整合的操作分支(例如，操作903、907、908)。這種跳幀技術(shù)可以被看作近似技術(shù)，因?yàn)榫嚯x值是經(jīng)由外推或內(nèi)插技術(shù)來近似估計(jì)的，如所討論的那樣。這種按需距離技術(shù)可以被看作非近似技術(shù)，因?yàn)檎Z音解碼器僅接收它針對當(dāng)前幀所需要的那些距離值，并且(在神經(jīng)網(wǎng)絡(luò)確定的距離值的情況下)不近似估計(jì)這些距離值。因此，這種按需距離技術(shù)可以降低計(jì)算成本，而不降低精度。例如，與僅跳幀相比，增加按需距離技術(shù)可以降低計(jì)算22％。在一些示例中，輸出層可能是神經(jīng)網(wǎng)絡(luò)的約50％，僅評估輸出層的所請求的子集可以節(jié)省神經(jīng)網(wǎng)絡(luò)的約45％的計(jì)算成本。在不同示例中，僅評估輸出層的所請求的子集可以節(jié)省神經(jīng)網(wǎng)絡(luò)的0至50％的計(jì)算成本。圖2示出所描述的跳幀技術(shù)和按需距離技術(shù)的示例結(jié)果。實(shí)現(xiàn)按需距離？實(shí)現(xiàn)跳幀？整體實(shí)時因子神經(jīng)網(wǎng)絡(luò)計(jì)算成本否否2.49～800MCPS是否1.97～615MCPS否是1.18～290MCPS是是1.00～225MCPS表2：實(shí)時因子與計(jì)算成本的比較表2提供了如在具有253個輸入層節(jié)點(diǎn)、四個隱藏層每層具有192個隱藏層節(jié)點(diǎn)、以及1015個輸出層節(jié)點(diǎn)的示例中所討論的具有約354000個權(quán)重的神經(jīng)網(wǎng)絡(luò)的示例結(jié)果。此外，針對所有測試，使用相同的語音識別引擎得到結(jié)果。所應(yīng)用的統(tǒng)計(jì)語言模型中的單詞數(shù)為1000。跳幀速率設(shè)定成N＝3(例如，模3)。語音解碼器是束寬語音解碼器，其提供有保守設(shè)置以用于最佳可能的語音識別性能。如所示的，整體的(例如，特征提取、神經(jīng)網(wǎng)絡(luò)和/或值近似估計(jì)模塊、以及語音解碼器)系統(tǒng)性能為暴力神經(jīng)網(wǎng)絡(luò)計(jì)算(例如，沒有跳幀，也沒有按需距離)提供了2.49秒的實(shí)時因子(RTF)，以約800MPCS(百萬周期每秒)的計(jì)算成本(例如，為了系統(tǒng)實(shí)時運(yùn)行所要求的每秒中央處理單元(CPU)周期數(shù))處理1秒的語音。按需距離單獨(dú)將實(shí)時因子減少了約22％，并且跳幀單獨(dú)將實(shí)時因子減少了約64％。在跳幀之上應(yīng)用按需距離提供了額外的約22％的減少，并且給整體系統(tǒng)帶來實(shí)時因子1.00。在給定的示例中，使用線性外推的跳幀與按需距離的組合允許自動語音識別系統(tǒng)在不損失精度的情況下實(shí)時運(yùn)行。此外，偽碼(2)提供了用于提供使用線性近似估計(jì)的跳幀結(jié)合按需距離的示例過程。如在偽碼(1)中所示，對于非跳過幀(例如，評估幀)，取?？梢允?，并且可以經(jīng)由神經(jīng)網(wǎng)絡(luò)(例如，DNN)計(jì)算所請求的距離值。對于跳過幀，可以經(jīng)由神經(jīng)網(wǎng)絡(luò)計(jì)算需要的在先距離值，并且在先距離值用于經(jīng)由對當(dāng)前距離值的外推(例如，linear_extrapolate)進(jìn)行近似估計(jì)。如所討論的，包括神經(jīng)網(wǎng)絡(luò)301、控制器302和距離值近似估計(jì)模塊303的距離值計(jì)算模塊204可以實(shí)現(xiàn)跳幀和/或按需距離，以顯著減少自動語音識別實(shí)現(xiàn)中的計(jì)算負(fù)荷，而語音識別精度沒有降低或者降低很小。此外，這種包括神經(jīng)網(wǎng)絡(luò)301、控制器302和距離值近似估計(jì)模塊303的距離值計(jì)算模塊204可以經(jīng)由相同的處理設(shè)備(例如，中央處理單元、圖形處理單元、信號處理器等)來實(shí)現(xiàn)，或者神經(jīng)網(wǎng)絡(luò)的各部分可以經(jīng)由不同的處理設(shè)備來實(shí)現(xiàn)。圖10是根據(jù)本公開的至少一些實(shí)現(xiàn)方式所布置的用于實(shí)現(xiàn)跳幀和/或按需的距離以用于從特征203和輸出索引208生成距離值205的示例系統(tǒng)1000的說明性示圖。如在圖10中所示，系統(tǒng)1000可以包括距離值計(jì)算模塊204和存儲倉庫(memorystore)1001，距離值計(jì)算模塊204具有神經(jīng)網(wǎng)絡(luò)301、控制器302和距離值近似估計(jì)模塊303，存儲倉庫1001被配置為存儲神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)、距離值(例如，與當(dāng)前幀有關(guān)的在先距離值)以及隱藏層值(例如，與當(dāng)前幀有關(guān)的在先隱藏層值)等。在一些示例中，如在此進(jìn)一步討論的，距離值計(jì)算模塊204可以經(jīng)由中央處理單元或其它處理器來實(shí)現(xiàn)。如所討論的，在一些示例中，距離值計(jì)算模塊204中的一些或全部可以經(jīng)由不同的處理器來實(shí)現(xiàn)。如所示的并且如本文在別處討論的，距離值計(jì)算模塊204可以接收特征203(例如，經(jīng)由特征提取模塊202)和輸出索引208(例如，經(jīng)由語音解碼器模塊206)。距離值計(jì)算模塊204還可以經(jīng)由存儲倉庫1001接收神經(jīng)網(wǎng)絡(luò)權(quán)重、偏置和校正(例如，神經(jīng)網(wǎng)絡(luò)數(shù)據(jù))。此外，距離值計(jì)算模塊204可以經(jīng)由存儲倉庫1001接收在先距離值和/或在先隱藏層值。例如，特征203可以提供輸入給神經(jīng)網(wǎng)絡(luò)301的輸入層。神經(jīng)網(wǎng)絡(luò)301可以經(jīng)由節(jié)點(diǎn)評分模塊、分?jǐn)?shù)偏置模塊和輸出/激活函數(shù)模塊來實(shí)現(xiàn)，節(jié)點(diǎn)評分模塊可以確定神經(jīng)網(wǎng)絡(luò)的各層的節(jié)點(diǎn)分?jǐn)?shù)，分?jǐn)?shù)偏置模塊可以對這些節(jié)點(diǎn)分?jǐn)?shù)進(jìn)行偏置以生成偏置后的分?jǐn)?shù)，輸出/激活函數(shù)模塊可以基于偏置后的分?jǐn)?shù)來生成節(jié)點(diǎn)的輸出。例如，對于隱藏層節(jié)點(diǎn)和輸入層節(jié)點(diǎn)，輸出/激活函數(shù)模塊可以實(shí)現(xiàn)激活函數(shù)以生成輸出，并且對于輸出層節(jié)點(diǎn)，輸出/激活函數(shù)模塊可以提供校正后的偏置分?jǐn)?shù)作為節(jié)點(diǎn)輸出。如所討論的，在一些示例中，在按需距離實(shí)現(xiàn)方式中可以控制輸出層，以僅提供與輸出索引208相關(guān)聯(lián)的距離值。此外，距離值近似估計(jì)模塊303可以從存儲倉庫1001或者從神經(jīng)網(wǎng)絡(luò)301接收神經(jīng)網(wǎng)絡(luò)確定的距離值，并且距離值近似估計(jì)模塊303可以例如基于接收到的神經(jīng)網(wǎng)絡(luò)確定的距離值來外推距離值。如在此所討論的，可以提供經(jīng)由神經(jīng)網(wǎng)絡(luò)301和/或距離值近似估計(jì)模塊303確定的距離值作為距離值205。圖11是根據(jù)本公開的至少一些實(shí)現(xiàn)方式所布置的示出用于提供自動語音識別的示例過程1100的流程圖。過程1100可以包括如圖11中所示的一個或多個操作1101-1103。過程1100可以構(gòu)成計(jì)算機(jī)實(shí)現(xiàn)的用于提供自動語音識別的方法的至少一部分。通過非限制性的示例，過程1100可以構(gòu)成由在此所討論的系統(tǒng)200或1000進(jìn)行的用于所獲得的語音記錄(例如語音記錄201)的自動語音識別過程的至少一部分。此外，這里將參照圖12的系統(tǒng)1200來描述過程1100。圖12是根據(jù)本公開的至少一些實(shí)現(xiàn)方式所布置的用于提供語音識別的示例系統(tǒng)1200的說明性示圖。如圖12中所示，系統(tǒng)1200可以包括一個或多個中央處理單元(CPU)1201、圖形處理單元(GPU)1202、系統(tǒng)存儲器1203和麥克風(fēng)104。還如圖所示，CPU1201可以包括特征提取模塊202、距離值計(jì)算模塊204和語音解碼器模塊206。此外，距離值計(jì)算模塊204可以包括神經(jīng)網(wǎng)絡(luò)301、控制器302和距離值近似估計(jì)模塊303。如圖所示，在系統(tǒng)1200的示例中，系統(tǒng)存儲器1203可以包括存儲倉庫1001，其可以存儲神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)、距離值和/或隱藏層值。此外，系統(tǒng)存儲器1203可以存儲如在此所討論的任何其它數(shù)據(jù)，例如語音記錄、特征、特征矢量、距離值、所識別的單詞序列等。麥克風(fēng)104可以包括可以接收語音103(例如，作為空氣中的聲波，請參見圖1)并將語音103轉(zhuǎn)換成諸如數(shù)字信號的電信號的任何合適的一個或多個設(shè)備。在實(shí)施例中，麥克風(fēng)將語音103轉(zhuǎn)換成語音記錄201。在實(shí)施例中，語音記錄201可以被存儲在系統(tǒng)存儲器1203中，以便由CPU1201訪問。CPU1201和圖形處理單元1202可以包括可以提供如在此所討論的操作的任何數(shù)量和類型的處理單元。這些操作可以經(jīng)由軟件或硬件或其組合來實(shí)現(xiàn)。例如，圖形處理單元1202可以包括專用于操縱從系統(tǒng)存儲器1203或?qū)Ｓ脠D形存儲器(未示出)獲得的數(shù)據(jù)的電路。此外，中央處理單元1201可以包括可以為系統(tǒng)1200和如在此所討論的操作提供控制和其它高層功能的任何數(shù)量和類型的處理單元或模塊。系統(tǒng)存儲器1203可以是任何類型的存儲器，例如易失性存儲器(例如，靜態(tài)隨機(jī)存取存儲器(SRAM)、動態(tài)隨機(jī)存取存儲器(DRAM)等)或非易失性存儲器(例如，閃存等)等。在非限制性示例中，系統(tǒng)存儲器1203可以由緩存存儲器來實(shí)現(xiàn)。如圖所示，在實(shí)施例中，特征提取模塊202、距離值計(jì)算模塊204和語音解碼器模塊206可以經(jīng)由CPU1201來實(shí)現(xiàn)。在一些示例中，特征提取模塊202、距離值計(jì)算模塊204和語音解碼器模塊206可以由如經(jīng)由CPU1201實(shí)現(xiàn)的軟件來提供。在其它示例中，特征提取模塊202、距離值計(jì)算模塊204和語音解碼器模塊206中的一個或多個可以經(jīng)由數(shù)字信號處理器等來實(shí)現(xiàn)。在另一實(shí)施例中，特征提取模塊202、距離值計(jì)算模塊204和語音解碼器模塊206中的一個或多個可以經(jīng)由圖形處理單元1202的執(zhí)行單元(EU)來實(shí)現(xiàn)。EU可以包括例如可編程邏輯或電路，例如可以提供寬泛的可編程邏輯功能的一個或多個邏輯核?；氐綀D11的討論，過程1100可以開始于操作1101，“評估神經(jīng)網(wǎng)絡(luò)以確定第一距離值作為神經(jīng)網(wǎng)絡(luò)的輸出”，在這里，可以評估神經(jīng)網(wǎng)絡(luò)以確定第一距離值作為神經(jīng)網(wǎng)絡(luò)的輸出。例如，第一距離值可以與第一時間實(shí)例相關(guān)聯(lián)。例如，如經(jīng)由CPU1201實(shí)現(xiàn)的距離值計(jì)算模塊204的神經(jīng)網(wǎng)絡(luò)301可以確定距離值作為神經(jīng)網(wǎng)絡(luò)301的輸出。在一些示例中，如在此所討論的，過程1100可以實(shí)現(xiàn)跳幀技術(shù)而不實(shí)現(xiàn)按需距離技術(shù)。在這種示例中，神經(jīng)網(wǎng)絡(luò)可以包括具有多個輸出層節(jié)點(diǎn)的輸出層，并且在操作1101處評估神經(jīng)網(wǎng)絡(luò)可以包括：評估神經(jīng)網(wǎng)絡(luò)的所有輸出節(jié)點(diǎn)。在其它示例中，過程1100可以實(shí)現(xiàn)按需距離技術(shù)，帶跳幀或不帶跳幀。在這種示例中，在操作1101之前，可以針對第一時間實(shí)例(例如，經(jīng)由語音解碼器)生成輸出索引。例如，第一距離值可以與多個輸出索引中的輸出索引相關(guān)聯(lián)。在這種示例中，神經(jīng)網(wǎng)絡(luò)可以包括具有多個輸出層節(jié)點(diǎn)的輸出層，這樣，針對第一時間實(shí)例評估神經(jīng)網(wǎng)絡(luò)包括：評估多個輸出層節(jié)點(diǎn)的子集，使得該子集與輸出索引相關(guān)聯(lián)。如所討論的，在這種示例中，可以針對第一時間實(shí)例完全評估神經(jīng)網(wǎng)絡(luò)的具有最末隱藏層節(jié)點(diǎn)的最末隱藏層，并且可以保存最末隱藏層節(jié)點(diǎn)值。過程1100可以繼續(xù)于操作1102，“基于神經(jīng)網(wǎng)絡(luò)確定的距離值來針對后續(xù)的時間實(shí)例近似估計(jì)第二距離值”，在這里，對于第一時間實(shí)例之后的第二時間實(shí)例，可以至少部分地基于第一距離值來近似估計(jì)第二距離值，并且使得不針對第二時間實(shí)例評估神經(jīng)網(wǎng)絡(luò)。例如，在第二時間實(shí)例處，可以沒有距離值是神經(jīng)網(wǎng)絡(luò)的直接輸出。例如，如經(jīng)由CPU1201實(shí)現(xiàn)的距離值計(jì)算模塊204的距離值近似估計(jì)模塊303可以近似估計(jì)第二距離值。第二距離值可以經(jīng)由基于線性函數(shù)、非線性函數(shù)、方差函數(shù)等的外推來近似估計(jì)。在一些示例中，第二距離值的近似估計(jì)可以基于使用第一距離值和來自在與第一距離值相關(guān)聯(lián)的時間實(shí)例之前的時間實(shí)例的第三距離值的外推。在一些示例中，這種基于第一距離值和第三距離值的外推可以基于線性外推，并且第三距離值可以經(jīng)由神經(jīng)網(wǎng)絡(luò)預(yù)先確定。在一些示例中，可以如關(guān)于公式(1)所示地提供這種外推，使得線性外推包括第一距離值加上第一距離值與第三距離值之間的差的一半。如所討論的，在一些示例中，可以一起實(shí)現(xiàn)跳幀和按需距離。在這種示例中，在近似估計(jì)第二距離值之前，可以針對第二時間實(shí)例生成輸出索引(例如，經(jīng)由語音解碼器)。例如，第二距離值可以與多個輸出索引中的輸出索引相關(guān)聯(lián)。在這種示例中，在第一時間實(shí)例處評估神經(jīng)網(wǎng)絡(luò)可以包括：評估最末隱藏層的所有最末隱藏層節(jié)點(diǎn)以生成最末隱藏層值，最末隱藏層值可以被保存。在第二時間實(shí)例處，可以通過基于所保存的第一時間實(shí)例的隱藏層值來為第二時間實(shí)例評估與輸出索引相關(guān)聯(lián)的輸出層節(jié)點(diǎn)，從而重新評估針對第一時間實(shí)例的神經(jīng)網(wǎng)絡(luò)，以確定可以用于近似估計(jì)第二距離值的神經(jīng)網(wǎng)絡(luò)確定的距離值。過程1100可以繼續(xù)于操作1103，“基于第一距離值和第二距離值來確定文本元素序列”，在這里，文本元素序列可以基于第一距離值和第二距離值來確定。例如，如在此所討論的，如經(jīng)由CPU1201實(shí)現(xiàn)的語音解碼器模塊206可以確定所識別的單詞序列207。在一些示例中，語音解碼器包括Viterbi束搜索解碼器。如所討論的，過程1100可以實(shí)現(xiàn)跳幀技術(shù)。這種技術(shù)可以跳過任何數(shù)量的幀。例如，使用神經(jīng)網(wǎng)絡(luò)確定的幀可以被描述為神經(jīng)網(wǎng)絡(luò)評估幀，而使用近似技術(shù)確定的幀可以被描述為跳過幀。在一些示例中，第一時間實(shí)例可以與神經(jīng)網(wǎng)絡(luò)評估幀相關(guān)聯(lián)，第二時間實(shí)例可以與跳過幀相關(guān)聯(lián)，并且評估幀和跳幀可以是相鄰的幀。在其它示例中，一個、兩個、三個、或更多個跳過幀可以在評估幀與跳過幀之間。此外，在一些示例中，可以經(jīng)由如經(jīng)由CPU1201實(shí)現(xiàn)的距離值計(jì)算模塊204的控制器302來確定和實(shí)現(xiàn)跳幀速率(例如，基于精度需求、可用計(jì)算資源、或者當(dāng)前的實(shí)時因子)，以在評估幀之間提供附加的跳過幀，或者從評估幀之間移去跳過幀?？梢葬槍θ魏螖?shù)量的時間實(shí)例和/或語音記錄，串行或并行地重復(fù)過程1100任何次數(shù)。過程1100可以提供經(jīng)由諸如在此所討論的設(shè)備102的設(shè)備或者經(jīng)由作為云計(jì)算平臺的一部分的服務(wù)器等來確定距離值并生成文本元素序列。還如在此所討論的，在這種實(shí)時處理之前，在一些示例中，可以經(jīng)由單獨(dú)的系統(tǒng)，對神經(jīng)網(wǎng)絡(luò)的各種組件進(jìn)行預(yù)先訓(xùn)練，確定偏置和/或權(quán)重，等。如所討論的，在一些示例中，過程1100可以經(jīng)由CPU1201來實(shí)現(xiàn)。在其它示例中，過程1100(和相關(guān)聯(lián)的模塊)可以經(jīng)由諸如協(xié)處理器等的專用處理器來實(shí)現(xiàn)。此外，在操作1101之前，在一些示例中，可以將接收到的語音轉(zhuǎn)換成語音記錄。例如，語音103可以經(jīng)由系統(tǒng)1100的麥克風(fēng)104和/或相關(guān)的電路被轉(zhuǎn)換成語音記錄201。此外，可以基于語音記錄201由如經(jīng)由CPU1201實(shí)現(xiàn)的特征提取模塊202來確定或提取特征203(例如，特征矢量)，并且這些特征可以被提供給如經(jīng)由CPU1201實(shí)現(xiàn)的距離值計(jì)算模塊204的神經(jīng)網(wǎng)絡(luò)301。在一些示例中，特征提取模塊202可以經(jīng)由系統(tǒng)1200的數(shù)字信號處理器(未示出)來實(shí)現(xiàn)。在一些示例中，如經(jīng)由CPU1201實(shí)現(xiàn)的語音解碼器模塊206可以通過將距離值205與如經(jīng)由系統(tǒng)存儲器1203得到的統(tǒng)計(jì)模型(未示出)進(jìn)行比較，來確定所識別的單詞序列207。雖然在此所討論的示例過程的實(shí)現(xiàn)方式可以包括按所示的順序進(jìn)行所示的所有操作，但是本公開不限于此，并且在各個示例中，在此的示例過程的實(shí)現(xiàn)方式可以包括僅所示操作的子集、按與所示的不同順序執(zhí)行的操作、或附加操作。此外，可以響應(yīng)于一個或多個計(jì)算機(jī)程序產(chǎn)品所提供的指令而進(jìn)行在此所討論的一個或多個操作。這些程序產(chǎn)品可以包括提供指令的信號承載介質(zhì)，所述指令當(dāng)由例如處理器執(zhí)行時可以提供在此所描述的功能?？梢酝ㄟ^任何形式的一個或多個機(jī)器可讀介質(zhì)來提供計(jì)算機(jī)程序產(chǎn)品。因此，例如，包括一個或多個圖形處理單元或處理器內(nèi)核的處理器可以響應(yīng)于由一個或多個機(jī)器可讀介質(zhì)傳送到處理器的程序代碼和/或指令或指令集而進(jìn)行在此的示例過程的一個或多個方框。通常，機(jī)器可讀介質(zhì)可以通過程序代碼和/或指令或指令集的形式來傳送軟件，這些程序代碼和/或指令或指令集可以使在此所描述的任何設(shè)備和/或系統(tǒng)實(shí)現(xiàn)在此所討論的系統(tǒng)200、1000或1200或任何其它模塊或組件的至少一部分。如在此所描述的任何實(shí)現(xiàn)方式中所使用的那樣，術(shù)語“模塊”指代被配置為提供在此所描述的功能的軟件邏輯、固件邏輯、硬件邏輯和/或電路的任何組合。軟件可以體現(xiàn)為軟件封裝、代碼和/或指令集或指令，并且在此所描述的任何實(shí)現(xiàn)方式中所使用的“硬件”可以單獨(dú)地或組合地包括例如硬布線電路、可編程電路、狀態(tài)機(jī)電路、固定功能電路、執(zhí)行單元電路、和/或存儲由可編程電路執(zhí)行的指令的固件。模塊可以共同地或單獨(dú)地體現(xiàn)為構(gòu)成更大系統(tǒng)(例如集成電路(IC)、片上系統(tǒng)(SoC)等)的一部分的電路。圖13是根據(jù)本公開的至少一些實(shí)現(xiàn)方式所布置的示例系統(tǒng)1300的說明性示圖。在各個實(shí)現(xiàn)方式中，系統(tǒng)1300可以是移動系統(tǒng)，但是系統(tǒng)1300不限于該上下文。例如，系統(tǒng)1300可以合并到個人計(jì)算機(jī)(PC)、膝上型計(jì)算機(jī)、超級膝上型計(jì)算機(jī)、手寫板、觸摸板、便攜式計(jì)算機(jī)、手持計(jì)算機(jī)、掌上型計(jì)算機(jī)、個人數(shù)字助理(PDA)、蜂窩電話、組合蜂窩電話/PDA、電視、智能設(shè)備(例如智能電話、智能手寫板、智能手表、智能眼鏡或智能電視)、移動互聯(lián)網(wǎng)設(shè)備(MID)、傳信設(shè)備、數(shù)據(jù)通信設(shè)備、相機(jī)(例如傻瓜相機(jī)、超級變焦相機(jī)、數(shù)字單反(DSLR)相機(jī))等中。在各個實(shí)現(xiàn)方式中，系統(tǒng)1300包括平臺1302，其耦合到顯示器1320。平臺1302可以從內(nèi)容設(shè)備(例如內(nèi)容服務(wù)設(shè)備1330或內(nèi)容傳送設(shè)備1340或其它類似內(nèi)容源)接收內(nèi)容。如圖所示，在一些示例中，系統(tǒng)1300可以包括經(jīng)由平臺1302實(shí)現(xiàn)的麥克風(fēng)104。平臺1302可以經(jīng)由麥克風(fēng)104接收語音(例如語音103)，如在此所討論的那樣。包括一個或多個導(dǎo)航特征的導(dǎo)航控制器1350可以用于與例如平臺1302和/或顯示器1320進(jìn)行交互。以下更詳細(xì)描述這些組件中的每一個。在各個實(shí)現(xiàn)方式中，平臺1302可以包括芯片組1305、處理器1310、存儲器1312、天線1313、存儲1314、圖形子系統(tǒng)1315、應(yīng)用1316和/或無線電裝置1318的任何組合。芯片組1305可以提供處理器1310、存儲器1312、存儲1314、圖形子系統(tǒng)1315、應(yīng)用1316和/或無線電裝置1318之間的相互通信。例如，芯片組1305可以包括能夠提供與存儲1314的相互通信的存儲適配器(未描繪)。處理器1310可以實(shí)現(xiàn)為復(fù)雜指令集計(jì)算機(jī)(CISC)或精簡指令集計(jì)算機(jī)(RISC)處理器、x86指令集兼容處理器、多核或任何其它微處理器，或者中央處理單元(CPU)。在各個實(shí)現(xiàn)方式中，處理器1310可以是雙核處理器、雙核移動處理器等。存儲器1312可以實(shí)現(xiàn)為易失性存儲器設(shè)備，例如但不限于隨機(jī)存取存儲器(RAM)、動態(tài)隨機(jī)存取存儲器(DRAM)或靜態(tài)RAM(SRAM)。存儲1314可以實(shí)現(xiàn)為非易失性存儲設(shè)備，例如但不限于磁盤驅(qū)動器、光盤驅(qū)動器、磁帶驅(qū)動器、內(nèi)部存儲設(shè)備、附連存儲設(shè)備、閃存、電池備用SDRAM(同步DRAM)和/或網(wǎng)絡(luò)可存取存儲設(shè)備。在各個實(shí)現(xiàn)方式中，例如，存儲1314可以包括用于當(dāng)包括多個硬盤驅(qū)動器時針對有價值的數(shù)字媒體增加存儲性能增強(qiáng)保護(hù)的技術(shù)。圖形子系統(tǒng)1315可以執(zhí)行對圖像(例如靜止圖像或視頻)的處理，以便進(jìn)行顯示。例如，圖形子系統(tǒng)1315可以是圖形處理單元(GPU)或視覺處理單元(VPU)。模擬或數(shù)字接口可以用于以通信方式耦合圖形子系統(tǒng)1315和顯示器1320。例如，接口可以是高清晰度多媒體接口、顯示端口、無線HDMI和/或無線HD順應(yīng)技術(shù)中的任一種。圖形子系統(tǒng)1315可以集成到處理器1310或芯片組1305中。在一些實(shí)現(xiàn)方式中，圖形子系統(tǒng)1315可以是以通信方式耦合到芯片組1305的單機(jī)設(shè)備。在此所描述的圖形和/或視頻處理技術(shù)可以實(shí)現(xiàn)于各種硬件架構(gòu)中。例如，圖形和/或視頻功能可以集成在芯片組內(nèi)。替代地，可以使用分立式圖形和/或視頻處理器。作為又一實(shí)現(xiàn)方式，可以通過通用處理器(包括多核處理器)提供圖形和/或視頻功能。在其它實(shí)施例中，可以在消費(fèi)者電子設(shè)備中實(shí)現(xiàn)這些功能。無線電裝置1318可以包括能夠使用各種合適的無線通信技術(shù)來發(fā)送和接收信號的一個或多個無線電裝置。這些技術(shù)可以涉及跨一個或多個無線網(wǎng)絡(luò)的通信。示例無線網(wǎng)絡(luò)包括(但不限于)無線局域網(wǎng)(WLAN)、無線個域網(wǎng)(WPAN)、無線城域網(wǎng)(WMAN)、蜂窩網(wǎng)絡(luò)和衛(wèi)星網(wǎng)絡(luò)。在跨這些網(wǎng)絡(luò)的通信中，無線電裝置1318可以根據(jù)任何版本的一個或多個適用標(biāo)準(zhǔn)來操作。在各個實(shí)現(xiàn)方式中，顯示器1320可以包括任何電視類型的監(jiān)視器或顯示器。顯示器1320可以包括例如計(jì)算機(jī)顯示屏、觸摸屏顯示器、視頻監(jiān)視器、類電視的設(shè)備、和/或電視。顯示器1320可以是數(shù)字的和/或模擬的。在各個實(shí)現(xiàn)方式中，顯示器1320可以是全息顯示器。此外，顯示器1320可以是可以接收視覺投影的透明表面。這些投影可以傳送各種形式的信息、圖像和/或?qū)ο?。例如，這些投影可以是用于移動增強(qiáng)現(xiàn)實(shí)(MAR)應(yīng)用的視覺覆蓋。在一個或多個軟件應(yīng)用1316的控制下，平臺1302可以在顯示器1320上顯示用戶界面1322。在各個實(shí)現(xiàn)方式中，例如，內(nèi)容服務(wù)設(shè)備1330可以由任何國家的、國際的和/或獨(dú)立的服務(wù)來主管，并且因此可經(jīng)由互聯(lián)網(wǎng)對平臺1302進(jìn)行訪問。內(nèi)容服務(wù)設(shè)備1330可以耦合到平臺1302和/或顯示器1320。平臺1302和/或內(nèi)容服務(wù)設(shè)備1330可以耦合到網(wǎng)絡(luò)1360，以將媒體信息傳遞(例如，發(fā)送和/或接收)出入網(wǎng)絡(luò)1360。內(nèi)容傳送設(shè)備1340也可以耦合到平臺1302和/或顯示器1320。在各個實(shí)現(xiàn)方式中，內(nèi)容服務(wù)設(shè)備1330可以包括有線電視盒、個人計(jì)算機(jī)、網(wǎng)絡(luò)、電話、啟用互聯(lián)網(wǎng)的設(shè)備或能夠傳送數(shù)字信息和/或內(nèi)容的電器、以及能夠經(jīng)由網(wǎng)絡(luò)1360或以直接方式在內(nèi)容提供商與平臺1302和/顯示器1320之間單向地或雙向地傳遞內(nèi)容的任何其它類似設(shè)備。應(yīng)理解，內(nèi)容可以經(jīng)由網(wǎng)絡(luò)1360單向地和/或雙向地傳遞出入系統(tǒng)1300中的任何一個組件以及內(nèi)容提供商。內(nèi)容的示例可以包括任何媒體信息，包括例如視頻信息、音樂信息、醫(yī)療信息和游戲信息等。內(nèi)容服務(wù)設(shè)備1330可以接收內(nèi)容，例如包含媒體信息、數(shù)字信息和/或其它內(nèi)容的有線電視節(jié)目。內(nèi)容提供商的示例可以包括任何有線或衛(wèi)星電視內(nèi)容提供商，或無線電內(nèi)容提供商，或互聯(lián)網(wǎng)內(nèi)容提供商。所提供的示例并非意圖以任何方式來限制根據(jù)本公開的實(shí)現(xiàn)方式。在各個實(shí)現(xiàn)方式中，平臺1302可以從具有一個或多個導(dǎo)航特征的導(dǎo)航控制器1350接收控制信號。例如，控制器1350的導(dǎo)航特征可以用于與用戶界面1322進(jìn)行交互。在各個實(shí)施例中，導(dǎo)航控制器1350可以是定點(diǎn)設(shè)備，其可以是允許用戶將空間(例如連續(xù)和多維)數(shù)據(jù)輸入到計(jì)算機(jī)中的計(jì)算機(jī)硬件組件(具體地說，人機(jī)接口設(shè)備)。很多系統(tǒng)(例如圖形用戶界面(GUI)以及電視和監(jiān)視器)允許用戶使用物理手勢來控制數(shù)據(jù)并將其提供給計(jì)算機(jī)或電視?？刂破?350的導(dǎo)航特征的移動可以通過顯示器上所顯示的指針、光標(biāo)、聚焦環(huán)或其它視覺指示符的移動而得以在顯示器(例如顯示器1320)上復(fù)制。例如，在軟件應(yīng)用1316的控制下，位于導(dǎo)航控制器1350上的導(dǎo)航特征可以被映射為用戶界面1322上所顯示的虛擬導(dǎo)航特征。在各個實(shí)施例中，控制器1350可以不是單獨(dú)的組件，而是可以集成到平臺1302和/或顯示器1320中。然而，本公開不限于在此所示或所描述的要素或情形。在各個實(shí)現(xiàn)方式中，例如，驅(qū)動器(未示出)可以包括用于當(dāng)啟用時使用戶能夠在初始引導(dǎo)之后通過觸摸按鈕即刻打開和關(guān)閉平臺1302(比如電視)的技術(shù)。程序邏輯可以允許平臺1302即使在平臺“關(guān)閉”時，也將內(nèi)容流送到媒體適配器或其它內(nèi)容服務(wù)設(shè)備1330或內(nèi)容傳送設(shè)備1340。此外，例如，芯片組1305可以包括關(guān)于5.1環(huán)繞聲音音頻和/或高清晰度7.1環(huán)繞聲音音頻的硬件和/或軟件支持。驅(qū)動器可以包括用于集成圖形平臺的圖形驅(qū)動器。在各個實(shí)施例中，圖形驅(qū)動器可以包括外設(shè)組件互連(PCI)高速圖形卡。在各個實(shí)現(xiàn)方式中，系統(tǒng)1300中所示的任何一個或多個組件可以是集成的。例如，平臺1302和內(nèi)容服務(wù)設(shè)備1330可以是集成的，或者平臺1302和內(nèi)容傳送設(shè)備1340可以是集成的，或者平臺1302、內(nèi)容服務(wù)設(shè)備1330和內(nèi)容傳送設(shè)備1340可以是集成的。在各個實(shí)施例中，平臺1302和顯示器1320可以是集成單元。例如，顯示器1320和內(nèi)容服務(wù)設(shè)備1330可以是集成的，或者顯示器1320和內(nèi)容傳送設(shè)備1340可以是集成的。這些示例并非意味著限制本公開。在各個實(shí)施例中，系統(tǒng)1300可以實(shí)現(xiàn)為無線系統(tǒng)、有線系統(tǒng)或二者的組合。當(dāng)實(shí)現(xiàn)為無線系統(tǒng)時，系統(tǒng)1300可以包括適合于通過無線共享介質(zhì)進(jìn)行通信的組件和接口，例如一個或多個天線、發(fā)射機(jī)、接收機(jī)、收發(fā)機(jī)、放大器、濾波器、控制邏輯等。無線共享介質(zhì)的示例可以包括無線頻譜的各部分，例如RF頻譜等。當(dāng)實(shí)現(xiàn)為有線系統(tǒng)時，系統(tǒng)1300可以包括適合于通過有線通信介質(zhì)進(jìn)行通信的組件和接口，例如輸入/輸出(I/O)適配器、用于將I/O適配器與對應(yīng)有線通信介質(zhì)連接的物理連接器、網(wǎng)絡(luò)接口卡(NIC)、磁盤控制器、視頻控制器、音頻控制器等。有線通信介質(zhì)的示例可以包括導(dǎo)線、線纜、金屬引線、印制電路板(PCB)、背板、開關(guān)構(gòu)造、半導(dǎo)體材料、雙絞線導(dǎo)線、同軸線纜、光纖等。平臺1302可以建立一個或多個邏輯或物理信道，以傳遞信息。信息可以包括媒體信息和控制信息。媒體信息可以指代表示意圖用于用戶的內(nèi)容的任何數(shù)據(jù)。內(nèi)容的示例可以包括例如來自語音對話、視頻會議、流送視頻、電子郵件(“email”)消息、語音郵件消息、字母數(shù)字符號、圖形、圖像、視頻、文本等的數(shù)據(jù)。來自語音對話的數(shù)據(jù)可以是例如語音信息、靜默時段、背景噪聲、舒適噪聲、音調(diào)等?？刂菩畔⒖梢灾复硎疽鈭D用于自動化系統(tǒng)的命令、指令或控制字的任何數(shù)據(jù)。例如，控制信息可以用于將媒體信息路由通過系統(tǒng)，或者吩咐節(jié)點(diǎn)以預(yù)定方式處理媒體信息。然而，實(shí)施例不限于圖13中所示或所描述的元件或上下文。如上所述，可以按變化的物理風(fēng)格或形數(shù)來體現(xiàn)系統(tǒng)1300。圖13示出可以體現(xiàn)系統(tǒng)1300的小形數(shù)設(shè)備1300的實(shí)現(xiàn)方式。在各個實(shí)施例中，例如，設(shè)備1300可以實(shí)現(xiàn)為具有無線能力的移動計(jì)算設(shè)備。移動計(jì)算設(shè)備可以指代具有處理系統(tǒng)和移動功率源或電源(例如，一個或多個電池)的任何設(shè)備。在一些示例中，設(shè)備1300可以包括麥克風(fēng)(例如麥克風(fēng)104)，和/或接收語音(例如語音103)，以用于經(jīng)由在此所討論的神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)方式進(jìn)行實(shí)時語音識別。如上所述，移動計(jì)算設(shè)備的示例可以包括個人計(jì)算機(jī)(PC)、膝上型計(jì)算機(jī)、超級膝上型計(jì)算機(jī)、手寫板、觸摸板、便攜式計(jì)算機(jī)、手持計(jì)算機(jī)、掌上型計(jì)算機(jī)、個人數(shù)字助理(PDA)、蜂窩電話、組合蜂窩電話/PDA、電視、智能設(shè)備(例如智能電話、智能手寫板或智能電視)、移動互聯(lián)網(wǎng)設(shè)備(MID)、傳信設(shè)備、數(shù)據(jù)通信設(shè)備、相機(jī)(例如傻瓜相機(jī)、超級變焦相機(jī)、數(shù)字單反(DSLR)相機(jī))等。移動計(jì)算設(shè)備的示例也可以包括被布置為人所穿戴的計(jì)算機(jī)，例如腕部計(jì)算機(jī)、手指計(jì)算機(jī)、耳環(huán)計(jì)算機(jī)、眼鏡計(jì)算機(jī)、帶夾計(jì)算機(jī)、臂帶計(jì)算機(jī)、鞋計(jì)算機(jī)、衣物計(jì)算機(jī)以及其它可穿戴計(jì)算機(jī)。在各個實(shí)施例中，例如，移動計(jì)算設(shè)備可以實(shí)現(xiàn)為能夠執(zhí)行計(jì)算機(jī)應(yīng)用以及語音通信和/或數(shù)據(jù)通信的智能電話。雖然可以通過示例的方式以實(shí)現(xiàn)為智能電話的移動計(jì)算設(shè)備來描述一些實(shí)施例，但是應(yīng)理解，同樣可以使用其它無線移動計(jì)算設(shè)備來實(shí)現(xiàn)其它實(shí)施例。實(shí)施例并非限于該上下文中。如圖14所示，設(shè)備1400可以包括外殼1402、顯示器1404、輸入/輸出(I/O)設(shè)備1406以及天線1408。設(shè)備1400也可以包括導(dǎo)航特征1412。顯示器1404可以包括用于顯示對于移動計(jì)算設(shè)備適當(dāng)?shù)男畔⒌娜魏魏线m的顯示單元。顯示器1404可以包括觸摸屏區(qū)域1410，以用于接收I/O命令。在一些示例中，觸摸屏區(qū)域1410可以基本上與顯示器1404是相同大小的。I/O設(shè)備1406可以包括任何合適的I/O設(shè)備，以用于將信息輸入移動計(jì)算設(shè)備中。用于I/O設(shè)備1406的示例可以包括字母數(shù)字鍵盤、數(shù)字鍵區(qū)、觸摸板、輸入鍵、按鈕、開關(guān)、搖臂開關(guān)、麥克風(fēng)、揚(yáng)聲器、語音識別設(shè)備和軟件等。信息也可以通過麥克風(fēng)(未示出)的方式輸入到設(shè)備1400中。這種信息可以由語音識別設(shè)備(未示出)進(jìn)行數(shù)字化。實(shí)施例并非限于該上下文中?？梢允褂糜布④浖蚨叩慕M合來實(shí)現(xiàn)各個實(shí)施例。硬件元件的示例可以包括處理器、微處理器、電路、電路元件(例如晶體管、電阻器、電容器、電感器等)、集成電路、專用集成電路(ASIC)、可編程邏輯器件(PLD)、數(shù)字信號處理器(DSP)、現(xiàn)場可編程門陣列(FPGA)、邏輯門、寄存器、半導(dǎo)體器件、芯片、微芯片、芯片組等。軟件的示例可以包括軟件組件、程序、應(yīng)用、計(jì)算機(jī)程序、應(yīng)用程序、系統(tǒng)程序、機(jī)器程序、操作系統(tǒng)軟件、中間件、固件、軟件模塊、例程、子例程、函數(shù)、方法、過程、軟件接口、應(yīng)用程序接口(API)、指令集、計(jì)算代碼、計(jì)算機(jī)代碼、代碼段、計(jì)算機(jī)代碼段、字、值、符號或其任何組合。確定是否使用硬件元件和/或軟件元件實(shí)現(xiàn)實(shí)施例可以根據(jù)任何數(shù)量的因素(例如期望的計(jì)算速率、功率等級、熱量容限、處理周期預(yù)算、輸入數(shù)據(jù)率、存儲器資源、數(shù)據(jù)總線速度以及其它設(shè)計(jì)或性能約束)而變化。可以通過機(jī)器可讀介質(zhì)上所存儲的代表性指令來實(shí)現(xiàn)至少一個實(shí)施例的一個或多個方面，這些指令表示處理器內(nèi)的各個邏輯，并且當(dāng)由機(jī)器讀取時使機(jī)器產(chǎn)生執(zhí)行在此所描述的技術(shù)的邏輯。這些稱為“IP核”的表示可以被存儲在有形機(jī)器可讀介質(zhì)上，并且被提供給各個顧客或制造設(shè)施，以加載到實(shí)際上制作邏輯或處理器的制造機(jī)器中。雖然已經(jīng)參照各個實(shí)現(xiàn)方式描述了在此所闡述的特定特征，但是這個描述并非意圖理解為限制性的意義。因此，在此所描述的實(shí)現(xiàn)方式的各種修改以及對于本公開所屬領(lǐng)域的技術(shù)人員顯而易見的其它實(shí)現(xiàn)方式看作處于本公開的精神和范圍內(nèi)。在一個或多個第一實(shí)施例中，一種計(jì)算機(jī)實(shí)現(xiàn)的用于提供自動語音識別的方法，包括：針對第一時間實(shí)例，評估神經(jīng)網(wǎng)絡(luò)以確定與所述第一時間實(shí)例相關(guān)聯(lián)的至少一個第一距離值，其中，所述至少一個第一距離值包括所述神經(jīng)網(wǎng)絡(luò)的輸出；針對第二時間實(shí)例，至少部分地基于所述第一距離值來近似估計(jì)至少一個第二距離值，其中，針對所述第二時間實(shí)例不評估所述神經(jīng)網(wǎng)絡(luò)；以及至少部分地基于所述第一距離值和所述第二距離值來確定文本元素序列。進(jìn)一步對于所述第一實(shí)施例，所述方法還包括：針對所述第一時間實(shí)例生成一個或多個輸出索引，其中，所述第一距離值與所述輸出索引中的第一輸出索引相關(guān)聯(lián)，其中，所述神經(jīng)網(wǎng)絡(luò)包括具有多個輸出層節(jié)點(diǎn)的輸出層，并且其中，針對所述第一時間實(shí)例評估所述神經(jīng)網(wǎng)絡(luò)包括：僅評估所述多個輸出層節(jié)點(diǎn)中的與所述輸出索引相關(guān)聯(lián)的子集。進(jìn)一步對于所述第一實(shí)施例，所述方法還包括：針對所述第一時間實(shí)例生成一個或多個輸出索引，其中，所述第一距離值與所述輸出索引中的第一輸出索引相關(guān)聯(lián)，其中，所述神經(jīng)網(wǎng)絡(luò)包括具有多個輸出層節(jié)點(diǎn)的輸出層，并且其中，針對所述第一時間實(shí)例評估所述神經(jīng)網(wǎng)絡(luò)包括：僅評估所述多個輸出層節(jié)點(diǎn)中的與所述輸出索引相關(guān)聯(lián)的子集，其中，所述神經(jīng)網(wǎng)絡(luò)還包括具有最末隱藏層節(jié)點(diǎn)的最末隱藏層，并且其中，針對所述第一時間實(shí)例評估所述神經(jīng)網(wǎng)絡(luò)包括：評估所有的最末隱藏層節(jié)點(diǎn)。進(jìn)一步對于所述第一實(shí)施例，所述方法還包括：針對所述第一時間實(shí)例生成一個或多個輸出索引，其中，所述第一距離值與所述輸出索引的第一輸出索引相關(guān)聯(lián)，其中，所述神經(jīng)網(wǎng)絡(luò)包括具有多個輸出層節(jié)點(diǎn)的輸出層，針對所述第一時間實(shí)例評估所述神經(jīng)網(wǎng)絡(luò)包括：僅評估所述多個輸出層節(jié)點(diǎn)中的與所述輸出索引相關(guān)聯(lián)的子集，和/或其中，所述神經(jīng)網(wǎng)絡(luò)還包括具有最末隱藏層節(jié)點(diǎn)的最末隱藏層，并且針對所述第一時間實(shí)例評估所述神經(jīng)網(wǎng)絡(luò)包括：評估所有的最末隱藏層節(jié)點(diǎn)。進(jìn)一步對于所述第一實(shí)施例，近似估計(jì)所述第二距離值包括：至少部分地基于所述第一距離值，基于線性函數(shù)、非線性函數(shù)或方差函數(shù)中的至少一個來外推所述第二距離值。進(jìn)一步對于所述第一實(shí)施例，近似估計(jì)所述第二距離值包括：基于所述第一距離值和與第三時間實(shí)例相關(guān)聯(lián)的第三距離值來外推所述第二距離值，其中，所述第一時間實(shí)例在所述第二時間實(shí)例之前，并且所述第三時間實(shí)例在所述第一時間實(shí)例之前。進(jìn)一步對于所述第一實(shí)施例，近似估計(jì)所述第二距離值包括：基于所述第一距離值和與第三時間實(shí)例相關(guān)聯(lián)的第三距離值來外推所述第二距離值，其中，所述第一時間實(shí)例在所述第二時間實(shí)例之前，并且所述第三時間實(shí)例在所述第一時間實(shí)例之前，其中，外推所述第二距離值包括：基于所述第一距離值和所述第三距離值，經(jīng)由線性函數(shù)外推所述第二距離值，其中，所述第三距離值是基于對所述神經(jīng)網(wǎng)絡(luò)的評估來確定的。進(jìn)一步對于所述第一實(shí)施例，近似估計(jì)所述第二距離值包括：基于所述第一距離值和與第三時間實(shí)例相關(guān)聯(lián)的第三距離值來外推所述第二距離值，其中，所述第一時間實(shí)例在所述第二時間實(shí)例之前，并且所述第三時間實(shí)例在所述第一時間實(shí)例之前，其中，外推所述第二距離值包括：基于所述第一距離值和所述第三距離值，經(jīng)由線性函數(shù)外推所述第二距離值，其中，所述第三距離值是基于對所述神經(jīng)網(wǎng)絡(luò)的評估來確定的，其中，所述線性函數(shù)包括將所述第一距離值加上所述第一距離值與所述第三距離值之間的差值的一半。進(jìn)一步對于所述第一實(shí)施例，近似估計(jì)所述第二距離值包括：基于所述第一距離值和與第三時間實(shí)例相關(guān)聯(lián)的第三距離值來外推所述第二距離值，所述第一時間實(shí)例在所述第二時間實(shí)例之前，并且所述第三時間實(shí)例在所述第一時間實(shí)例之前，和/或外推所述第二距離值包括：基于所述第一距離值和所述第三距離值，經(jīng)由線性函數(shù)外推所述第二距離值，和/或所述第三距離值是基于對所述神經(jīng)網(wǎng)絡(luò)的評估來確定的。進(jìn)一步對于所述第一實(shí)施例，所述方法還包括：針對所述第二時間實(shí)例生成一個或多個輸出索引，其中，用于所述第二時間實(shí)例的第三距離值與所述輸出索引中的第一輸出索引相關(guān)聯(lián)，其中，所述神經(jīng)網(wǎng)絡(luò)包括具有多個輸出層節(jié)點(diǎn)的輸出層和具有多個最末隱藏層節(jié)點(diǎn)的最末隱藏層，并且其中，所述針對第一時間實(shí)例評估神經(jīng)網(wǎng)絡(luò)包括：評估最末隱藏層的所有最末隱藏層節(jié)點(diǎn)以生成多個最末隱藏層值；在所述第二時間實(shí)例處，通過基于所述最末隱藏層值評估所述多個輸出層節(jié)點(diǎn)中的與第四距離值相關(guān)聯(lián)的輸出層節(jié)點(diǎn)，來確定用于所述第一時間實(shí)例的第四距離值；以及針對所述第二時間實(shí)例，至少部分地基于所述第四距離值來近似估計(jì)所述第三距離值。進(jìn)一步對于所述第一實(shí)施例，所述神經(jīng)網(wǎng)絡(luò)包括具有多個輸出層節(jié)點(diǎn)的輸出層，并且其中，針對所述第一時間實(shí)例評估所述神經(jīng)網(wǎng)絡(luò)包括：評估所述多個輸出層節(jié)點(diǎn)中的全部節(jié)點(diǎn)。進(jìn)一步對于所述第一實(shí)施例，所述第一時間實(shí)例與神經(jīng)網(wǎng)絡(luò)評估幀相關(guān)聯(lián)，所述第二時間實(shí)例與跳過幀相關(guān)聯(lián)，并且其中，一個、兩個或三個附加的跳過幀在所述評估幀與所述跳過幀之間。進(jìn)一步對于所述第一實(shí)施例，所述神經(jīng)網(wǎng)絡(luò)包括具有多個輸出層節(jié)點(diǎn)的輸出層，并且針對所述第一時間實(shí)例評估所述神經(jīng)網(wǎng)絡(luò)包括：評估所述多個輸出層節(jié)點(diǎn)中的全部節(jié)點(diǎn)，和/或所述第一時間實(shí)例與神經(jīng)網(wǎng)絡(luò)評估幀相關(guān)聯(lián)，所述第二時間實(shí)例與跳過幀相關(guān)聯(lián)，并且其中，一個、兩個或三個附加的跳過幀在所述評估幀與所述跳過幀之間，和/或確定文本元素序列包括：經(jīng)由Viterbi束搜索解碼器來確定文本元素序列。進(jìn)一步對于所述第一實(shí)施例，所述第一時間實(shí)例與神經(jīng)網(wǎng)絡(luò)評估幀相關(guān)聯(lián)，所述第二時間實(shí)例與跳過幀相關(guān)聯(lián)，并且所述方法還包括：基于可用計(jì)算資源或當(dāng)前的實(shí)時因子中的至少一個來確定跳幀速率，并且基于所述跳幀速率，在所述評估幀與所述跳過幀之間提供附加的跳過幀。進(jìn)一步對于所述第一實(shí)施例，確定文本元素的序列包括：經(jīng)由Viterbi束搜索解碼器來確定文本元素的序列。進(jìn)一步對于所述第一實(shí)施例，所述方法還包括：將接收到的語音轉(zhuǎn)換成語音記錄；提取與所述語音記錄的時間窗口相關(guān)聯(lián)的特征矢量；以及提供所述特征矢量，作為所述神經(jīng)網(wǎng)絡(luò)的輸入。在一個或多個第二實(shí)施例中，一種用于提供自動語音識別的系統(tǒng)，包括：存儲器，被配置為：存儲語音識別數(shù)據(jù)；和中央處理單元，耦合到所述存儲器，其中，所述中央處理單元包括：神經(jīng)網(wǎng)絡(luò)電路，被配置為：針對第一時間實(shí)例實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)，以確定與所述第一時間實(shí)例相關(guān)聯(lián)的至少一個第一距離值；距離值近似估計(jì)電路，被配置為：針對第二時間實(shí)例，至少部分地基于所述第一距離值來近似估計(jì)至少一個第二距離值；和語音解碼器電路，被配置為：至少部分地基于所述第一距離值和所述第二距離值來確定文本元素序列。進(jìn)一步對于所述第二實(shí)施例，所述語音解碼器電路還被配置為：針對所述第一時間實(shí)例生成一個或多個輸出索引，其中，所述第一距離值與所述輸出索引中的第一輸出索引相關(guān)聯(lián)，其中，所述神經(jīng)網(wǎng)絡(luò)包括具有多個輸出層節(jié)點(diǎn)的輸出層，并且其中，所述神經(jīng)網(wǎng)絡(luò)電路被配置為：針對所述第一時間實(shí)例，僅評估所述多個輸出層節(jié)點(diǎn)中的與所述輸出索引相關(guān)聯(lián)的子集。進(jìn)一步對于所述第二實(shí)施例，所述語音解碼器電路還被配置為：針對所述第一時間實(shí)例生成一個或多個輸出索引，其中，所述第一距離值與所述輸出索引中的第一輸出索引相關(guān)聯(lián)，其中，所述神經(jīng)網(wǎng)絡(luò)包括具有多個輸出層節(jié)點(diǎn)的輸出層，并且其中，所述神經(jīng)網(wǎng)絡(luò)電路被配置為：針對所述第一時間實(shí)例，僅評估所述多個輸出層節(jié)點(diǎn)中的與所述輸出索引相關(guān)聯(lián)的子集，其中，所述神經(jīng)網(wǎng)絡(luò)還包括具有最末隱藏層節(jié)點(diǎn)的最末隱藏層，并且其中，所述神經(jīng)網(wǎng)絡(luò)電路被配置為：針對所述第一時間實(shí)例，評估所有的最末隱藏層節(jié)點(diǎn)。進(jìn)一步對于所述第二實(shí)施例，所述語音解碼器電路還被配置為：針對所述第一時間實(shí)例生成一個或多個輸出索引，所述第一距離值與所述輸出索引中的第一輸出索引相關(guān)聯(lián)，所述神經(jīng)網(wǎng)絡(luò)包括具有多個輸出層節(jié)點(diǎn)的輸出層，并且所述神經(jīng)網(wǎng)絡(luò)電路被配置為：針對所述第一時間實(shí)例，僅評估所述多個輸出層節(jié)點(diǎn)中的與所述輸出索引相關(guān)聯(lián)的子集，和/或所述神經(jīng)網(wǎng)絡(luò)還包括具有最末隱藏層節(jié)點(diǎn)的最末隱藏層，所述神經(jīng)網(wǎng)絡(luò)電路被配置為：針對所述第一時間實(shí)例，評估所有的最末隱藏層節(jié)點(diǎn)。進(jìn)一步對于所述第二實(shí)施例，所述距離值近似估計(jì)電路被配置為近似估計(jì)所述第二距離值包括：所述距離值近似估計(jì)電路被配置為：基于所述第一距離值和與第三時間實(shí)例相關(guān)聯(lián)的第三距離值來外推所述第二距離值，其中，所述第一時間實(shí)例在所述第二時間實(shí)例之前，并且所述第三時間實(shí)例在所述第一時間實(shí)例之前。進(jìn)一步對于所述第二實(shí)施例，所述距離值近似估計(jì)電路被配置為：基于所述第一距離值和所述第三距離值，經(jīng)由線性函數(shù)外推所述第二距離值，其中，所述神經(jīng)網(wǎng)絡(luò)電路被配置為：實(shí)現(xiàn)所述神經(jīng)網(wǎng)絡(luò)以確定所述第三距離值。進(jìn)一步對于所述第二實(shí)施例，所述距離值近似估計(jì)電路被配置為近似估計(jì)所述第二距離值包括：所述距離值近似估計(jì)電路被配置為：基于所述第一距離值和與第三時間實(shí)例相關(guān)聯(lián)的第三距離值，經(jīng)由線性函數(shù)外推所述第二距離值，所述第一時間實(shí)例在所述第二時間實(shí)例之前，并且所述第三時間實(shí)例在所述第一時間實(shí)例之前，和/或所述第三距離值是基于對所述神經(jīng)網(wǎng)絡(luò)的評估來確定的。進(jìn)一步對于所述第二實(shí)施例，所述距離值近似估計(jì)電路被配置為近似估計(jì)所述第二距離值包括：所述距離值近似估計(jì)電路被配置為：基于所述第一距離值和與第三時間實(shí)例相關(guān)聯(lián)的第三距離值，經(jīng)由線性函數(shù)外推所述第二距離值，其中，所述第一時間實(shí)例在所述第二時間實(shí)例之前，并且所述第三時間實(shí)例在所述第一時間實(shí)例之前，其中，所述第三距離值是基于對所述神經(jīng)網(wǎng)絡(luò)的評估來確定的。進(jìn)一步對于所述第二實(shí)施例，所述語音解碼器電路還被配置為：針對所述第二時間實(shí)例生成一個或多個輸出索引，其中，用于所述第二時間實(shí)例的第三距離值與所述輸出索引中的第一輸出索引相關(guān)聯(lián)，其中，所述神經(jīng)網(wǎng)絡(luò)包括具有多個輸出層節(jié)點(diǎn)的輸出層和具有多個最末隱藏層節(jié)點(diǎn)的最末隱藏層，并且其中，所述神經(jīng)網(wǎng)絡(luò)電路被配置為：針對所述第一時間實(shí)例，評估所有的最末隱藏層節(jié)點(diǎn)，其中，所述神經(jīng)網(wǎng)絡(luò)電路還被配置為：在所述第二時間實(shí)例處，通過基于所述最末隱藏層值評估所述多個輸出層節(jié)點(diǎn)中的與第四距離值相關(guān)聯(lián)的輸出層節(jié)點(diǎn)，來確定用于所述第一時間實(shí)例的第四距離值，并且其中，所述距離值近似估計(jì)電路被配置為：針對第二時間實(shí)例，至少部分地基于所述第四距離值來近似估計(jì)所述第三距離值。進(jìn)一步對于所述第二實(shí)施例，所述神經(jīng)網(wǎng)絡(luò)包括具有多個輸出層節(jié)點(diǎn)的輸出層，并且其中，所述神經(jīng)網(wǎng)絡(luò)電路被配置為針對所述第一時間實(shí)例評估神經(jīng)網(wǎng)絡(luò)包括：所述神經(jīng)網(wǎng)絡(luò)電路被配置為評估所述多個輸出層節(jié)點(diǎn)中的全部節(jié)點(diǎn)。進(jìn)一步對于所述第二實(shí)施例，所述第一時間實(shí)例與神經(jīng)網(wǎng)絡(luò)評估幀相關(guān)聯(lián)，所述第二時間實(shí)例與跳過幀相關(guān)聯(lián)，并且其中，一個、兩個或三個附加的跳過幀在所述評估幀與所述跳過幀之間。進(jìn)一步對于所述第二實(shí)施例，所述語音解碼器電路包括Viterbi束搜索解碼器。進(jìn)一步對于所述第二實(shí)施例，所述系統(tǒng)還包括：特征提取電路，被配置為：提取與語音記錄的時間窗口相關(guān)聯(lián)的特征矢量；和控制器電路，被配置為：至少部分地基于系統(tǒng)的可用計(jì)算資源或當(dāng)前的實(shí)時因子中的至少一個來確定跳幀速率。在一個或多個第三實(shí)施例中，一種用于提供自動語音識別的系統(tǒng)，包括：用于針對第一時間實(shí)例，評估神經(jīng)網(wǎng)絡(luò)以確定與所述第一時間實(shí)例相關(guān)聯(lián)的至少一個第一距離值的單元，其中，所述至少一個第一距離值包括所述神經(jīng)網(wǎng)絡(luò)的輸出；用于針對第二時間實(shí)例，至少部分地基于所述第一距離值來近似估計(jì)至少一個第二距離值的單元，其中，針對所述第二時間實(shí)例不評估所述神經(jīng)網(wǎng)絡(luò)；和用于至少部分地基于所述第一距離值和所述第二距離值來確定文本元素序列的單元。進(jìn)一步對于所述第三實(shí)施例，所述系統(tǒng)還包括：用于針對所述第一時間實(shí)例生成一個或多個輸出索引的單元，其中，所述第一距離值與所述輸出索引中的第一輸出索引相關(guān)聯(lián)，其中，所述神經(jīng)網(wǎng)絡(luò)包括具有多個輸出層節(jié)點(diǎn)的輸出層和具有最末隱藏層節(jié)點(diǎn)的最末隱藏層，并且其中，針對所述第一時間實(shí)例評估神經(jīng)網(wǎng)絡(luò)包括：僅評估所述多個輸出層節(jié)點(diǎn)中的與所述輸出索引相關(guān)聯(lián)的子集，以及評估最末隱藏層節(jié)點(diǎn)中的全部節(jié)點(diǎn)。進(jìn)一步對于所述第三實(shí)施例，近似估計(jì)所述第二距離值包括：基于所述第一距離值和與第三時間實(shí)例相關(guān)聯(lián)的第三距離值，經(jīng)由線性函數(shù)外推所述第二距離值，其中，所述第一時間實(shí)例在所述第二時間實(shí)例之前，并且所述第三時間實(shí)例在所述第一時間實(shí)例之前，并且其中，所述第三距離值是基于對所述神經(jīng)網(wǎng)絡(luò)的評估來確定的。在一個或多個第四實(shí)施例中，至少一種機(jī)器可讀介質(zhì)，包含多條指令，所述指令響應(yīng)于在計(jì)算設(shè)備上執(zhí)行而使所述計(jì)算設(shè)備通過以下操作來提供自動語音識別：針對第一時間實(shí)例，評估神經(jīng)網(wǎng)絡(luò)以確定與所述第一時間實(shí)例相關(guān)聯(lián)的至少一個第一距離值，其中，所述至少一個第一距離值包括所述神經(jīng)網(wǎng)絡(luò)的輸出；針對第二時間實(shí)例，至少部分地基于所述第一距離值來近似估計(jì)至少一個第二距離值，其中，針對所述第二時間實(shí)例不評估神經(jīng)網(wǎng)絡(luò)；以及至少部分地基于所述第一距離值和所述第二距離值來確定文本元素序列。進(jìn)一步對于所述第四實(shí)施例，所述機(jī)器可讀介質(zhì)還包含如下指令，所述指令響應(yīng)于在所述計(jì)算設(shè)備上執(zhí)行而使所述計(jì)算設(shè)備通過以下操作來執(zhí)行語音識別：針對所述第一時間實(shí)例生成一個或多個輸出索引，其中，所述第一距離值與所述輸出索引中的第一輸出索引相關(guān)聯(lián)，其中，所述神經(jīng)網(wǎng)絡(luò)包括具有多個輸出層節(jié)點(diǎn)的輸出層，并且其中，針對所述第一時間實(shí)例評估神經(jīng)網(wǎng)絡(luò)包括：僅評估所述多個輸出層節(jié)點(diǎn)中的與所述輸出索引相關(guān)聯(lián)的子集。進(jìn)一步對于所述第四實(shí)施例，近似估計(jì)所述第二距離值包括：基于所述第一距離值和與第三時間實(shí)例相關(guān)聯(lián)的第三距離值，經(jīng)由線性函數(shù)外推所述第二距離值，其中，所述第一時間實(shí)例在所述第二時間實(shí)例之前，并且所述第三時間實(shí)例在所述第一時間實(shí)例之前，其中，所述第三距離值是基于對所述神經(jīng)網(wǎng)絡(luò)的評估來確定的。進(jìn)一步對于所述第四實(shí)施例，所述機(jī)器可讀介質(zhì)還包含如下指令，所述指令響應(yīng)于在所述計(jì)算設(shè)備上執(zhí)行而使所述計(jì)算設(shè)備通過以下操作來執(zhí)行語音識別：針對所述第二時間實(shí)例生成一個或多個輸出索引，其中，用于所述第二時間實(shí)例的第三距離值與所述輸出索引中的第一輸出索引相關(guān)聯(lián)，其中，所述神經(jīng)網(wǎng)絡(luò)包括具有多個輸出層節(jié)點(diǎn)的輸出層和具有多個最末隱藏層節(jié)點(diǎn)的最末隱藏層，并且其中，所述針對第一時間實(shí)例評估神經(jīng)網(wǎng)絡(luò)包括：評估最末隱藏層的所有最末隱藏層節(jié)點(diǎn)，以生成多個最末隱藏層值；在所述第二時間實(shí)例處，通過基于所述最末隱藏層值評估所述多個輸出層節(jié)點(diǎn)中的與第四距離值相關(guān)聯(lián)的輸出層節(jié)點(diǎn)，來確定用于所述第一時間實(shí)例的第四距離值；以及針對所述第二時間實(shí)例，至少部分地基于所述第四距離值來近似估計(jì)第三距離值。進(jìn)一步對于所述第四實(shí)施例，所述機(jī)器可讀介質(zhì)還包含如下指令，所述指令響應(yīng)于在所述計(jì)算設(shè)備上執(zhí)行而使所述計(jì)算設(shè)備通過以下操作來執(zhí)行語音識別：將接收到的語音轉(zhuǎn)換成語音記錄；提取與所述語音記錄的時間窗口相關(guān)聯(lián)的特征矢量；以及提供所述特征矢量作為神經(jīng)網(wǎng)絡(luò)的輸入。在一個或多個第五實(shí)施例中，至少一種機(jī)器可讀介質(zhì)可以包含多條指令，所述指令響應(yīng)于在計(jì)算設(shè)備上執(zhí)行而使所述計(jì)算設(shè)備執(zhí)行根據(jù)以上實(shí)施例中任一項(xiàng)所述的方法。在一個或多個第六實(shí)施例中，裝置可以包括：用于執(zhí)行根據(jù)以上實(shí)施例中任一項(xiàng)所述的方法。應(yīng)理解，實(shí)施例不限于如此所描述的實(shí)施例，而是可以在不脫離所附權(quán)利要求的范圍的情況下通過修改和改動進(jìn)行實(shí)施。例如，以上示例可以包括特征的特定組合。然而，以上實(shí)施例不限于此，并且在各個實(shí)現(xiàn)方式中，以上實(shí)施例可以包括僅承擔(dān)這些特征的子集，承擔(dān)這些特征的不同順序，承擔(dān)這些特征的不同組合，和/或承擔(dān)除了明確列出的那些特征之外的附加特征。因此，應(yīng)當(dāng)參照附圖連同這些權(quán)利要求被賦予的等同物的完全范圍一起來確定實(shí)施例的范圍。當(dāng)前第1頁1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：J·鮑爾;P·羅森;G·施特默爾;
技術(shù)所有人：英特爾公司;
我是此專利的發(fā)明人

上一篇：生成對社交會話輸入的計(jì)算機(jī)響應(yīng)的制造方法與工藝
上一篇：意圖理解裝置以及方法與制造工藝

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

用于語音識別的插件相關(guān)技術(shù)

hopfield用于語音識別相關(guān)技術(shù)

語音識別技術(shù)用于相關(guān)技術(shù)

訊飛語音識別使用方法相關(guān)技術(shù)

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

用于自動語音識別的使用外推的跳幀和按需輸出的神經(jīng)網(wǎng)絡(luò)的制作方法