期刊大全 雜志訂閱 SCI期刊 投稿指導 期刊服務 文秘服務 出版社 登錄/注冊 購物車(0)

首頁 > 精品范文 > 語音識別技術

語音識別技術精品(七篇)

時間:2023-03-17 18:04:01

序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來了七篇語音識別技術范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創(chuàng)作。

語音識別技術

篇(1)

關鍵詞: 語音識別; 識別原理; 聲學建模方法; 多維模式識別系統(tǒng)

中圖分類號: TN912.3?34 文獻標識碼: A 文章編號: 1004?373X(2013)13?0043?03

Summary of speech recognition technology and its application

YU Lin?lin

(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)

Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.

Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system

0 引 言

語言是人類相互交流最常用、最有效、最重要和最方便的通信形式,語音是語言的聲學表現(xiàn),與機器進行語音交流是人類一直以來的夢想。隨著計算機技術的飛速發(fā)展,語音識別技術也取得突破性的成就,人與機器用自然語言進行對話的夢想逐步接近實現(xiàn)。語音識別技術的應用范圍極為廣泛,不僅涉及到日常生活的方方面面,在軍事領域也發(fā)揮著極其重要的作用。它是信息社會朝著智能化和自動化發(fā)展的關鍵技術,使人們對信息的處理和獲取更加便捷,從而提高人們的工作效率。

1 語音識別技術的發(fā)展

語音識別技術起始于20世紀50年代。這一時期,語音識別的研究主要集中在對元音、輔音、數(shù)字以及孤立詞的識別。

20世紀60年代,語音識別研究取得實質(zhì)性進展。線性預測分析和動態(tài)規(guī)劃的提出較好地解決了語音信號模型的產(chǎn)生和語音信號不等長兩個問題,并通過語音信號的線性預測編碼,有效地解決了語音信號的特征提取。

20世紀70年代,語音識別技術取得突破性進展?;趧討B(tài)規(guī)劃的動態(tài)時間規(guī)整(Dynamic Time Warping, DTW)技術基本成熟,特別提出了矢量量化(Vector Quantization,VQ)和隱馬爾可夫模型(Hidden Markov Model,HMM)理論[1]。

20世紀80年代,語音識別任務開始從孤立詞、連接詞的識別轉向大詞匯量、非特定人、連續(xù)語音的識別,識別算法也從傳統(tǒng)的基于標準模板匹配的方法轉向基于統(tǒng)計模型的方法。在聲學模型方面,由于HMM能夠很好的描述語音時變性和平穩(wěn)性,開始被廣泛應用于大詞匯量連續(xù)語音識別(Large Vocabulary Continous Speech Recognition, LVCSR)的聲學建模[2?3];在語言模型方面,以N元文法為代表的統(tǒng)計語言模型開始廣泛應用于語音識別系統(tǒng)[4]。在這一階段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經(jīng)網(wǎng)絡的語音建模方法開始廣泛應用于LVCSR系統(tǒng),語音識別技術取得新突破。

20世紀90年代以后,伴隨著語音識別系統(tǒng)走向?qū)嵱没?,語音識別在細化模型的設計、參數(shù)提取和優(yōu)化、系統(tǒng)的自適應方面取得較大進展[5]。同時,人們更多地關注話者自適應、聽覺模型、快速搜索識別算法以及進一步的語言模型的研究等課題[6]。此外,語音識別技術開始與其他領域相關技術進行結合,以提高識別的準確率,便于實現(xiàn)語音識別技術的產(chǎn)品化。

2 語音識別基礎

2.1 語音識別概念

語音識別是將人類的聲音信號轉化為文字或者指令的過程[7]。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支。語音識別的研究涉及微機技術、人工智能、數(shù)字信號處理、模式識別、聲學、語言學和認知科學等許多學科領域,是一個多學科綜合性研究領域[8]。

根據(jù)在不同限制條件下的研究任務,產(chǎn)生了不同的研究領域。這些領域包括:根據(jù)對說話人說話方式的要求,可分為孤立字(詞)、連接詞和連續(xù)語音識別系統(tǒng);根據(jù)對說話人的依賴程度,可分為特定人和非特定人語音識別系統(tǒng);根據(jù)詞匯量的大小,可分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統(tǒng)。

2.2 語音識別基本原理

從語音識別模型的角度講,主流的語音識別系統(tǒng)理論是建立在統(tǒng)計模式識別基礎之上的。語音識別的目標是利用語音學與語言學信息,把輸入的語音特征向量序列[X=x1,x2,…,xT]轉化成詞序列[W=w1,w2,…,wN]并輸出?;谧畲蠛篁灨怕实恼Z音識別模型如下式所示:

[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]

上式表明,要尋找的最可能的詞序列[W],應該使[P(X|W)]與[P(W)]的乘積達到最大。其中,[P(X|W)]是特征矢量序列[X]在給定[W]條件下的條件概率,由聲學模型決定。[P(W)]是[W]獨立于語音特征矢量的先驗概率,由語言模型決定。由于將概率取對數(shù)不影響[W]的選取,第四個等式成立。[logP(X|W)]與[logP(W)]分別表示聲學得分與語言得分,且分別通過聲學模型與語言模型計算得到。[λ]是平衡聲學模型與語言模型的權重。從語音識別系統(tǒng)構成的角度講,一個完整的語音識別系統(tǒng)包括特征提取、聲學模型、語言模型、搜索算法等模塊。語音識別系統(tǒng)本質(zhì)上是一種多維模式識別系統(tǒng),對于不同的語音識別系統(tǒng),人們所采用的具體識別方法及技術不同,但其基本原理都是相同的,即將采集到的語音信號送到特征提取模塊處理,將所得到的語音特征參數(shù)送入模型庫模塊,由聲音模式匹配模塊根據(jù)模型庫對該段語音進行識別,最后得出識別結果[9]。

語音識別系統(tǒng)基本原理框圖如圖1所示,其中:預處理模塊濾除原始語音信號中的次要信息及背景噪音等,包括抗混疊濾波、預加重、模/數(shù)轉換、自動增益控制等處理過程,將語音信號數(shù)字化;特征提取模塊對語音的聲學參數(shù)進行分析后提取出語音特征參數(shù),形成特征矢量序列。語音識別系統(tǒng)常用的特征參數(shù)有短時平均幅度、短時平均能量、線性預測編碼系數(shù)、短時頻譜等。特征提取和選擇是構建系統(tǒng)的關鍵,對識別效果極為重要。

圖1 語音識別基本原理框圖

由于語音信號本質(zhì)上屬于非平穩(wěn)信號,目前對語音信號的分析是建立在短時平穩(wěn)性假設之上的。在對語音信號作短時平穩(wěn)假設后,通過對語音信號進行加窗,實現(xiàn)短時語音片段上的特征提取。這些短時片段被稱為幀,以幀為單位的特征序列構成語音識別系統(tǒng)的輸入。由于梅爾倒譜系數(shù)及感知線性預測系數(shù)能夠從人耳聽覺特性的角度準確刻畫語音信號,已經(jīng)成為目前主流的語音特征。為補償幀間獨立性假設,人們在使用梅爾倒譜系數(shù)及感知線性預測系數(shù)時,通常加上它們的一階、二階差分,以引入信號特征的動態(tài)特征。

聲學模型是語音識別系統(tǒng)中最為重要的部分之一。聲學建模涉及建模單元選取、模型狀態(tài)聚類、模型參數(shù)估計等很多方面。在目前的LVCSR系統(tǒng)中,普遍采用上下文相關的模型作為基本建模單元,以刻畫連續(xù)語音的協(xié)同發(fā)音現(xiàn)象。在考慮了語境的影響后,聲學模型的數(shù)量急劇增加,LVCSR系統(tǒng)通常采用狀態(tài)聚類的方法壓縮聲學參數(shù)的數(shù)量,以簡化模型的訓練。在訓練過程中,系統(tǒng)對若干次訓練語音進行預處理,并通過特征提取得到特征矢量序列,然后由特征建模模塊建立訓練語音的參考模式庫。

搜索是在指定的空間當中,按照一定的優(yōu)化準則,尋找最優(yōu)詞序列的過程。搜索的本質(zhì)是問題求解,廣泛應用于語音識別、機器翻譯等人工智能和模式識別的各個領域。它通過利用已掌握的知識(聲學知識、語音學知識、詞典知識、語言模型知識等),在狀態(tài)(從高層至底層依次為詞、聲學模型、HMM狀態(tài))空間中找到最優(yōu)的狀態(tài)序列。最終的詞序列是對輸入的語音信號在一定準則下的一個最優(yōu)描述。在識別階段,將輸入語音的特征矢量參數(shù)同訓練得到的參考模板庫中的模式進行相似性度量比較,將相似度最高的模式所屬的類別作為識別中間候選結果輸出。為了提高識別的正確率,在后處理模塊中對上述得到的候選識別結果繼續(xù)處理,包括通過Lattice重打分融合更高元的語言模型、通過置信度度量得到識別結果的可靠程度等。最終通過增加約束,得到更可靠的識別結果。

2.3 聲學建模方法

常用的聲學建模方法包含以下三種:基于模式匹配的動態(tài)時間規(guī)整法(DTW);隱馬爾可夫模型法(HMM);基于人工神經(jīng)網(wǎng)絡識別法(ANN)等。

DTW 是較早的一種模式匹配的方法。它基于動態(tài)規(guī)劃的思想,解決孤立詞語音識別中的語音信號特征參數(shù)序列比較時長度不一的模板匹配問題。在實際應用中,DTW通過計算已預處理和分幀的語音信號與參考模板之間的相似度,再按照某種距離測度計算出模板間的相似度并選擇最佳路徑。

HMM是對語音信號的時間序列結構所建立的統(tǒng)計模型,是在馬爾可夫鏈的基礎上發(fā)展起來的,它是一種基于參數(shù)模型的統(tǒng)計識別方法。HMM可模仿人的言語過程,可視作一個雙重隨機過程:一個是用具有有限狀態(tài)數(shù)的馬爾可夫鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機過程,另一個是與馬爾可夫鏈的每一個狀態(tài)相關聯(lián)的觀測序列的隨機過程[10]。

ANN以數(shù)學模型模擬神經(jīng)元活動,將人工神經(jīng)網(wǎng)絡中大量神經(jīng)元并行分布運算的原理、高效的學習算法以及對人的認知系統(tǒng)的模仿能力充分運用到語音識別領域,并結合神經(jīng)網(wǎng)絡和隱含馬爾可夫模型的識別算法,克服了ANN在描述語音信號時間動態(tài)特性方面的缺點,進一步提高了語音識別的魯棒性和準確率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估計音素或狀態(tài)的后驗概率。2011年,微軟以深度神經(jīng)網(wǎng)絡替代多層感知機形成的混合模型系統(tǒng)大大提高了語音識別的準確率。

3 語音識別的應用

語音識別技術有著非常廣泛的應用領域和市場前景。在語音輸入控制系統(tǒng)中,它使得人們可以甩掉鍵盤,通過識別語音中的要求、請求、命令或詢問來作出正確的響應,這樣既可以克服人工鍵盤輸入速度慢,極易出差錯的缺點,又有利于縮短系統(tǒng)的反應時間,使人機交流變得簡便易行,比如用于聲控語音撥號系統(tǒng)、聲控智能玩具、智能家電等領域。在智能對話查詢系統(tǒng)中,人們通過語音命令,可以方便地從遠端的數(shù)據(jù)庫系統(tǒng)中查詢與提取有關信息,享受自然、友好的數(shù)據(jù)庫檢索服務,例如信息網(wǎng)絡查詢、醫(yī)療服務、銀行服務等。語音識別技術還可以應用于自動口語翻譯,即通過將口語識別技術、機器翻譯技術、語音合成技術等相結合,可將一種語言的語音輸入翻譯為另一種語言的語音輸出,實現(xiàn)跨語言交流[11]。

語音識別技術在軍事斗爭領域里也有著極為重要的應用價值和極其廣闊的應用空間。一些語音識別技術就是著眼于軍事活動而研發(fā),并在軍事領域首先應用、首獲成效的,軍事應用對語音識別系統(tǒng)的識別精度、響應時間、惡劣環(huán)境下的頑健性都提出了更高的要求。目前,語音識別技術已在軍事指揮和控制自動化方面得以應用。比如,將語音識別技術應用于航空飛行控制,可快速提高作戰(zhàn)效率和減輕飛行員的工作負擔,飛行員利用語音輸入來代替?zhèn)鹘y(tǒng)的手動操作和控制各種開關和設備,以及重新改編或排列顯示器上的顯示信息等,可使飛行員把時間和精力集中于對攻擊目標的判斷和完成其他操作上來,以便更快獲得信息來發(fā)揮戰(zhàn)術優(yōu)勢。

4 結 語

語音識別的研究工作對于信息化社會的發(fā)展,人們生活水平的提高等方面有著深遠的意義。隨著計算機信息技術的不斷發(fā)展,語音識別技術將取得更多重大突破,語音識別系統(tǒng)的研究將會更加深入,有著更加廣闊的發(fā)展空間。

參考文獻

[1] 馬志欣,王宏,李鑫.語音識別技術綜述[J].昌吉學院學報,2006(3):93?97.

[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.

[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.

[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.

[5] 倪崇嘉,劉文舉,徐波.漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進展[J].中文信息學報,2009,23(1):112?123.

[6] 顧亞強.非特定人語音識別關鍵技術研究[D].長沙:國防科學技術大學,2009.

[7] 中華人民共和國國家質(zhì)量監(jiān)督檢驗檢疫總局.GB/T21023?2007 中文語音識別系統(tǒng)通用技術規(guī)范[S].北京:中國標準出版社,2007.

[8] 王文慧.基于ARM的嵌入式語音識別系統(tǒng)研究[D].天津:天津大學,2008.

[9] 何湘智.語音識別的研究與發(fā)展[J].計算機與現(xiàn)代化,2002(3):3?6.

篇(2)

關鍵詞:嵌入式系統(tǒng);語音識別;隱馬爾可夫;智能家居

中圖分類號:TP316.9

文獻標識碼:A

DOI:10.3969/j.issn.1003-6970.2015.07.021

0 引言

隨著計算機的發(fā)展,智能家居在近幾年也得到了大家的重視,智能家居利用各種通信、網(wǎng)絡技術實現(xiàn)家居設備集成,為用戶提供了更加舒適高效的環(huán)境。近幾年人們對智能家居的便利程度提出了更高的要求,同時語音識別技術也進一步的發(fā)展,但是語音在智能家居中的應用還是相對較少,一般還要依靠遙控、手機等中控設備。語言是信息交流的重要手段,語音識別可以用聲音來控制設備完成一些特定的命令,減少用戶如手機,遙控等中控設備的依賴,使生活更加方便。

本文通過對語音識別技術與嵌入式控制技術的研究,用語音命令實現(xiàn)直接管控從而可以取代以往利用手機或者遙控方式來控制的方法,方便操作而又能提高效率。本系統(tǒng)基于NL6621板與語音芯片VS1003實現(xiàn)語音采集,并采用當今語音識別領域的主流技術一一隱馬爾科夫模型(Hidden Markov Model,HMM)算法實現(xiàn)對人語音命令的識別主要是進行模型訓練和匹配。實驗證明在多個語音樣本對系統(tǒng)的訓練識別下,系統(tǒng)在非特定人、孤立詞語識別上具有良好的效果。

1 語音識別與智能家居

1.1 語音識別技術

語音識別技術本質(zhì)上是一種模式匹配識別的過程,是機器通過識別和理解過程把語音信號轉變成相應的文本文件或命令的技術。根據(jù)模式匹配過程語音識別系統(tǒng)可以如下圖表示。語音識別系統(tǒng)可以分為:特定人和非特定人的識別、獨立詞和連續(xù)詞的識別等,無論哪種識別系統(tǒng)識別過程都主要包括了語音信號預處理、特征提取、訓練等。分別通過對信號的預處理分析和計算建立模板,當對語音進行識別時,需要將輸入的語音與系統(tǒng)中存放的語音進行比較從而得到識別結果。

1.2 語音識別算法

人的言語過程是一個雙重隨機過程。因為語音信號本身是一個可觀察的序列,而它又是由大腦里的不可觀察的、根據(jù)言語需要和語法知識狀態(tài)選擇所發(fā)出的音素(詞、句)的參數(shù)流,大量實驗表明,隱馬爾可夫模型(HMM)的確可以非常精確地描述語音信號的產(chǎn)生過程。隱馬爾可夫模型是對語音信號的時間序列結構建立統(tǒng)計模型,將之看作一個數(shù)學上的雙重隨機過程,采用HMM進行語音識別,實質(zhì)上是一種概率運算,根據(jù)訓練集數(shù)據(jù)計算得出模型參數(shù)后,測試集數(shù)據(jù)只需分別計算各模型的條件概率(Viterbi算法),取此概率最大者即為識別結果。一階離散馬爾可夫模型可表示為:有N個狀態(tài),Sl,S2... SN,存在一個離散的時間序列t=0,t=1…在每個時刻t,系統(tǒng)只能處于唯一一個狀態(tài)qt,下一個時刻所處的狀態(tài)是隨機出現(xiàn)的,當前狀態(tài)qt只與前面相鄰的一個狀態(tài)qt-l有關, 與其他狀態(tài)無關,用表達式

HMM語音識別的一般過程:

1.前向后向算法計算

已知觀測序列 和模型 ,如何有效的計算在給定模型條件下產(chǎn)生觀測序列O的概率

2.Baum-Welch算法求出最優(yōu)解 :

(1)初始化

(2)迭代計算

(3)最后計算

3.Viterbi算法解出最佳狀態(tài)轉移序列:

已知觀測序列 和模型 ,如何選擇在某種意義上最佳的狀態(tài)序列。

(1)初始化

(2)迭代計算:

4.根據(jù)最佳狀態(tài)序列對應的九給出候選音節(jié)或聲韻母

5.通過語言模型形成詞和句子

2 基于NL6621嵌入式硬件設計

語音識別的硬件平臺主要包括中央處理器NL6621,可讀寫存儲器,聲卡芯片vs1003以及一些設備,硬件體系結構如圖2所示。

主系統(tǒng)使用新岸線公司的NL6621。MCU采用的最高主頻為160MHz,支持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,軟AP,WiFi保護設置以及WMM-PS和WPA/WPA2安全協(xié)議。codec芯片是vs1003,它與核心控制器NL6621的數(shù)據(jù)通信是通過SPI總線方式進行的。它集成了麥克風輸入接口,音頻輸出接口,對話筒輸入或者線路輸入進行IMA ADPCM編碼,能有效的接受和播放音頻信息。

硬件電路實現(xiàn):VS1003通過xCS、xDCS引腳的置高或低來確認是哪一個接口處于傳送狀態(tài)。通過串行命令接口(SCI)和串行數(shù)據(jù)接口(SDI)來接收NL6621的控制命令和數(shù)據(jù),通過SCI HDAT1來獲取語音流;VS1003的功能控制,如初始化、軟復位、暫停、音量控制、播放時間的讀取等,均是通過SCI口寫入特定寄存器實現(xiàn)的。兩條SCI指令之間要通過DREQ引腳信號判斷上一次處理是否完成。

3 基于NL6621嵌入式軟件設計

軟件設計主要包括兩部分實現(xiàn)軟件控制嵌入式系統(tǒng)和基于HMM技術的語音識別算法編寫,基本的軟件架構如圖3所示。

針對嵌入式系統(tǒng)控制部分,包括硬件初始化以及采集音頻信號。主要是使用NL6621提供的軟件開發(fā)包,利用SDK編寫應用程序,包括硬件管腳初始化,波特率匹配,錄音文件配置,WiFi配置,錄音,音頻文件格式轉化、程序編寫完成后需要用燒寫工具進行燒寫。系統(tǒng)啟動后,先初始化硬件模塊。然后系統(tǒng)開始工作,通過語音輸入設備MIC采集語音,并通過聲卡VS1003輸入語音。當系統(tǒng)監(jiān)聽到語音輸入,開始語音識別,判斷識別是否正確,若正確,將命令發(fā)送給執(zhí)行設備,入耳不正確,給出相應

的錯誤提示,不執(zhí)行語音命令。判斷識別是否結束,如果結束則退出,否則繼續(xù)下一輪的識別?;贖MM技術的語音識別算法編寫,還包括了語音預處理,特征值提取和匹配識別的部分。主要的原理如圖4所示,輸入語音經(jīng)過預處理后,語音信號的特征被提取出來,首先在此基礎上建立所需的模板,這個建立模板的過程稱為訓練過程。根據(jù)語音識別整體模型,將輸入的語音信號特征與存在的語音模板(參考模式)進行比較,找出一系列最優(yōu)的與輸入的語音相匹配的模板。然后,根據(jù)此模板號的定義,通過查表就可以給出計算機的識別結果。采用HMM進行語音識別,實質(zhì)上是一種概率運算。根據(jù)訓練集數(shù)據(jù)計算得出模型參數(shù)后,測試集數(shù)據(jù)只需分別計算各模型的條件概率(Viterbi算法),取此概率最大者即為識別結果。除訓練時需運算量較大外,識別時的運算量僅有模式匹配法的幾分之一。

篇(3)

【關鍵詞】語音識別技術;語言實驗室

語音識別技術是使用計算機能識別和理解的語言,把語音信號轉變?yōu)橄鄳奈谋净蛎畹倪^程。語音識別是一門涉及到語音語言學、信號處理、模式識別、人工智能的多學科交叉技術,也是2000年至2010年間信息技術領域十大重要的科技發(fā)展技術之一。隨著語音識別技術的發(fā)展,在傳統(tǒng)的數(shù)字化語言實驗室中其可以作為一種新的外語輔助教學的手段,完善現(xiàn)有的數(shù)字化語音室的功能。

一、語音識別技術

語音識別技術是一種讓計算機能夠聽懂人的語音命令的技術。對使用者來說,這種人機交互的途徑是最自然的一種方式。早在三四十年前,美國的一些大學和實驗室就開始了語音識別技術的研究,50年代的AT&T Bell實驗室研發(fā)的Audry系統(tǒng)第一個實現(xiàn)了可識別十個英文數(shù)字。60和70年代,提出了線性預測分析技術(LP)等相關理論并深入研究,創(chuàng)造出可以實現(xiàn)特定人孤立語音識別系統(tǒng);80 年代和90年代是語音識別技術應用研究方向的,HMM 模型和人工神經(jīng)元網(wǎng)絡(ANN)的成功應用,使得語音識別系統(tǒng)的性能比以往更優(yōu)異;伴隨著多媒體時代的來臨,微軟,Apple 等著名公司都研發(fā)出相當成功的商業(yè)應用語音識別系統(tǒng),比如,Apple的Siri系統(tǒng),微軟的Phone Query(電話語音識別)引擎等。近二三十年來,語音識別在交通、軍事、工業(yè)、醫(yī)學等諸多方面,特別是在計算機、通信與電子系統(tǒng)、信息處理、自動控制等領域中有著非常廣泛的應用。目前,語音識別技術產(chǎn)品在人機交互應用中己經(jīng)占到越來越大的比例。例如,在聲控應用中,計算機可識別輸入的語音內(nèi)容,并根據(jù)內(nèi)容來執(zhí)行相應的動作,這包括了聲控語音撥號系統(tǒng)、聲控智能玩具、醫(yī)療服務、賓館服務、家庭服務、股票查詢服務和工業(yè)控制等。也可用于基于微型機的辦公、教學、娛樂等智能多媒體軟件,如語言學習、教學軟件、語音玩具、語音書籍等。語音識別技術作為語音控制的主體,在應用領域中正成為一個具有競爭力的技術。

語音識別的開發(fā)平臺現(xiàn)已逐步成熟,在windows下有微軟的SAPI語音識別開發(fā)平臺,在Unix/Linux下有IBM的ViaVoice和開源的Xvoice開發(fā)平臺。它們都是相當優(yōu)秀音識別開發(fā)系統(tǒng),提供了良好的開發(fā)接口,使語音識別應用程序開發(fā)能夠不需要對現(xiàn)有系統(tǒng)做大規(guī)模的修改,以較少投入、較短周期、以組件方式加入到當前的語言實驗室中。

二、語音識別技術在語言實驗室中的應用

1.有聲圖書

可以將一些由外籍專家錄制的有聲圖書加入到語言實驗室的資料庫中。標準的美式或英式發(fā)音,結合文本,逐字逐句的朗讀,讓學生可以在閱讀英語圖書的同時聆聽到原汁原味的英語。所有圖書都支持自動播放,可以一次聽完整本書,學生也可以選擇單獨播放某個句子,并鼓勵學生模仿標準的語音語調(diào)朗讀圖書。從而對學生的閱讀、聽力、口語進行全方位的提高。

2.口述作文

影響語音識別系統(tǒng)輔助學生口述作文的最為關鍵技術是識別率和糾錯能力,從某種意義上說,只要這兩個關鍵的技術得到了提高,則其輔助寫作的有效性就會得到較大提高。近幾年,隨著多媒體技術和人工智能技術的進步,不僅語音識別系統(tǒng)的識別率得到很大提高,而且多語言的語音識別產(chǎn)品也大為豐富。目前國際商業(yè)機器(IBM)公司推出的語音識別軟件具有非特定人,無限詞匯量,連續(xù)語音識別,高識別率,專業(yè)文章智能分析、理解等強大的語音功能。該軟件通過對個人話語進行測試與分析來適應說話者,適應后的語音識別正確率可以達到95%以上。與過去相比,其識別率提高了很多,已經(jīng)完全可以接受。語音識別系統(tǒng)除了識別率目前已有很大提高,其智能糾錯能力也大為提高。一是糾錯的操作更加方便和容易,目前的語音識別系統(tǒng),可以有三種糾錯方式:①通過鍵盤輸入方式;②系統(tǒng)智化地產(chǎn)生錯誤詞的相近詞列出,供修改者選擇;③還可以通過重讀來糾錯。二是通過糾錯,可讓語音識別系統(tǒng)更進一步地熟悉說話者的聲音,而非常有效地提高系統(tǒng)識別率。隨著信息技術的迅速發(fā)展,今后的語音識別系統(tǒng)必將是功能更加強大,智能化程度更高,兼容性更強,抗噪音能力更強的系統(tǒng),其輔助口述作文的有效性也會更強。

3.英語口語糾正系統(tǒng)

語音識別技術的應用使得軟件可以具有發(fā)音評測的功能,能夠幫助學習者及時發(fā)現(xiàn)和糾正發(fā)音的錯誤,避免重復錯誤形成習慣,從而極大提高了學習者的學習效率。英語口語學習中語音識別技術遇到的難點主要有:①語音識別選取基元的問題。一般地,欲識別的詞匯量比較多時,所用基元應該越小越好;②端點檢測。語音信號的端點檢測是語音識別的關鍵。據(jù)研究表明,即便是在安靜的環(huán)境下,語音識別系統(tǒng)也會有一半以上的識別錯誤源自端點檢測器。提高端點檢測技術的關鍵所在是尋找穩(wěn)定的語音參數(shù);③找出反映發(fā)音質(zhì)量的性能指標。主要是對發(fā)音段(指一段發(fā)音的語速、韻律、語調(diào)以及重音等)的研究;④對給定的發(fā)音進行錯誤檢測和糾正,尋找合理的評分機制。

由于語音識別在理論與技術方面的復雜性,現(xiàn)有的口語糾正軟件仍有很大限制范圍,但隨著語音技術的發(fā)展相信其在外語語言學習中的應用會越來越廣泛。

三、結束語

語音識別技術作為一種逐漸成熟的計算機技術,是計算機輔助外語教學中的一種重要虛擬現(xiàn)實手段。而人機交互是數(shù)字語音室的一個發(fā)展方向,也是外語網(wǎng)絡教學的核心內(nèi)容。所以,語音識別技術會是未來語言實驗室的建設中的一個重要方向。

參考文獻:

[1]夏晴.ARS和TTS技術在外語口語教學中的應用研究[J].外語電化教學,2006(2)

[2]周英.語音識別技術發(fā)展趨勢的分析[J].計算機光盤軟件與應用,2012(19)

[3]孔菊芳.基于語音識別技術的英語學習網(wǎng)站分析[J].哈爾濱職業(yè)技術學院學報,2012(5)

篇(4)

關鍵詞:英語口語;語音識別;英文朗讀;評分機制

語音識別技術使人與機器的交流成為現(xiàn)實,它開創(chuàng)了口語移動學習的全新教育方式,受到越來越多的關注。借助互聯(lián)網(wǎng),移動學習以其學習時間靈活,學習內(nèi)容豐富、精煉且片段化等特點,開辟了學習的新理念,讓口語學習真正擺脫了時間和空間的限制,使任何人在任何時間、任何地點根據(jù)需要進行自主學習成為可能。目前,已有的基于PC的智能英語學習軟件,能提供基于計算機的輔助技術,讓學習者及時得到發(fā)音質(zhì)量評分的智能化功能,但是基于手機端的口語學習應用不多。

本終端是一款基于Android系統(tǒng)開發(fā)的,進行英語口語學習的安卓語音軟件。產(chǎn)品結合Google語音識別技術,使用GPRS或WiFi進行移動終端與Google云服務端之間的數(shù)據(jù)交流,并通過對語音識別結果的處理,最終設計成一個可以進行英語口語專線訓練和自主訓練的應用Oral Storm。

1 研究基礎

Android平臺自底層向上由四個層次組成:Linux內(nèi)核層、Android運行時庫與其他庫層、應用框架層、應用程序?qū)印K捎密浖褜樱╯oftware stack),又名軟件疊層的構架,主要分為3部分:底層以Linux內(nèi)核工作為基礎,由C語言開發(fā),只提供基本功能;中間層包括函數(shù)庫Library和虛擬機(virtual machine),用C++開發(fā),最上層是各種應用軟件。

2 應用架構及功能說明

專項訓練模塊主要是對英語口語比較重要的四個發(fā)音類別進行系統(tǒng)訓練,這4個發(fā)音類別分別是清輔音、濁輔音、摩擦音和爆破音。在進入訓練界面之前,有對各類發(fā)音方法和技巧的介紹,利于用戶方便快速地學習口語的正確發(fā)音。我們將每種發(fā)音訓練模式中的單詞都分成10個小組,這些單詞都是由學校專業(yè)英語教師挑選的有代表性的詞,適合用于英語口語基礎訓練。用戶在進行完每個小組的單詞訓練后,系統(tǒng)都會對用戶的發(fā)音作出評價和打分,對經(jīng)常出現(xiàn)發(fā)音錯誤的單詞,用戶可以選擇保存,用于以后專門的訓練。

自主學習模塊是用戶根據(jù)自身實際需求進行訓練的板塊。用戶先輸入想要訓練的單詞或語句,如果不知道如何發(fā)音,可以求助于應用中的英文朗讀功能。英文朗讀功能是將文本轉換成語音信號,幫助用戶輕松方便地學習每一個英語發(fā)音。用戶還可以選擇性地保存輸入的學習內(nèi)容,方便以后復習使用。

總之,專項訓練模塊針對學生英語學習中的四大類發(fā)音難題設計,通過專題式的學習、測試和智能評分,給用戶提供隨身的英語單詞學習和測試環(huán)境;自主訓練模塊則專注于為用戶提供可定制的英語單詞學習專題,通過學習內(nèi)容的自定義給用戶最大限度的學習自由度。

3 研究技術

應用功能的實現(xiàn)主要使用了兩大技術,獲取語音識別技術和語音合成技術。

3.1 獲取語音識別技術

單詞發(fā)音練習需要使用Google語音搜索服務,因此必須判斷當前用戶手機是否支持該服務,所采用的方法是通過queryIntentActivities()方法,查詢Android系統(tǒng)所有具備RecognizerIntent.ACTION_RECOGNIZE_ SPEECH的Intent的應用程序,點擊后能啟動該應用。

在Android語音識別應用研究與開發(fā)的同時,Google語音服務需要網(wǎng)絡支持,所以也需要判斷當前用戶的網(wǎng)絡連接狀況,在類中寫一方法check--NetWorkStatus()引用ConnectivityManager cwjManager來判斷網(wǎng)絡是否連接正常。

3.2 語音合成技術

語音合成技術,是一種將文本轉換為語音輸出的技術,其主要工作是將文本按字或詞分解為音素,然后將音素生成的數(shù)字音頻用揚聲器播放或者保存為聲音文件,然后通過多媒體軟件播放。

Android手機平臺,綁定了英文語音引擎,對英文語音提供內(nèi)置的支持。要將文本轉換為語音,首先要檢查TTS數(shù)據(jù)可用,指令TextToSpeech中的Engine ACTION_CHECK_TTS_DATA就可以完成,返回結果為真,表明TTSEngine可以使用。除此之外,還有語音數(shù)據(jù)損壞和缺少發(fā)音數(shù)據(jù)等原因?qū)е耇TSEngine不能使用,這些因素都要考慮。之后是初始化TTS接口,這部分要設置發(fā)音語言引擎setLanguage(Locale.US)、發(fā)音音量Len(Volume)等。在這個過程中,還需要檢測設置的發(fā)音語言類型是否可用。

4 結束語

我們開發(fā)的口語學習軟件Oral Storm,可為訓練單詞發(fā)音提供專業(yè)、智能及終端化的一體化學習和測試環(huán)境,專題分類科學、全面,涵蓋了爆破音、摩擦音等發(fā)音難點,可在專題學習后提供智能評分和語音糾正。用戶使用這款應用,可以方便快速地學習英語口語的正確發(fā)音。

參考文獻

[1] 邢銘生,朱浩,王宏斌.語音識別技術綜述[J].科協(xié)論壇:下半月,2010(3):62-63.

[2] 詹青龍,張靜然,邵銀娟.移動學習的理論研究和實踐探索[J].中國電化教育,2010(3):1-7.

[3] 周麗嫻,梁昌銀,沈澤.Android語音識別應用的研究與開發(fā)[J].廣東通信技術,2013,33(4):15-18.

[4] 涂惠燕,陳一寧.基于語音識別和手機平臺的英語口語發(fā)音學習系統(tǒng)[J].計算機應用與軟件,2011,28(9):64-66.

篇(5)

關鍵詞:Speech SDK;語音識別;Voyager-IIA旅行家二號;教學平臺

中圖分類號:TP319 文獻標識碼:A 文章編號:1672-7800(2013)005-0096-02

0、引言

教學技術的進步關鍵在于構建一個良好的輔助教學支撐平臺,通過該平臺教師可以方便地展示教學課程信息,學生利用該教學平臺可以進行科學實驗和工程實踐,以獲取真實的實驗數(shù)據(jù)。

機器人學作為一門綜合了機械、電子、計算機及人工智能、仿生等諸多專業(yè)的新興學科,在工程研究和應用領域得到了越來越廣泛的重視。我國各大高等院校也紛紛開設與機器人相關的課程,這對普及機器人知識和加強其產(chǎn)業(yè)化進程無疑會起到重要的作用。

基于這種理念,設計了基于ARM11的智能語音識別機器人教學平臺。

1、語音識別機器人教學平臺現(xiàn)狀

教學技術平臺是開展各科教學的必要條件,是現(xiàn)代教育教學開展的基礎。從近年發(fā)展的情況看,各種教學平臺的設計與運用在教學過程中起著越來越重要的作用。如何設計滿足現(xiàn)代學習者需要的教學平臺?如何將計算機技術、通信技術、機器人技術發(fā)展優(yōu)勢同現(xiàn)代教學的需求結合起來?這是現(xiàn)在教學平臺發(fā)展至關重要的方面?,F(xiàn)代教學平臺在技術發(fā)展驅(qū)動和現(xiàn)代教育應用形態(tài)發(fā)展需求下,出現(xiàn)了許多不同的個性化教學技術平臺。

隨著人們對現(xiàn)代教育認識的加深和對傳統(tǒng)教育的反思,人們的知識觀和教育觀發(fā)生了很大變化。高校課程改革大舉推進,高等教育更要突出實踐、突出創(chuàng)新。高校課程要突出沉浸感、交互性、自主性等特征。教學平臺本身將從以教學機構為中心逐步走向以學生為中心,教學平臺從提供教學內(nèi)容、教學產(chǎn)品轉向為學習服務的功能。

國內(nèi)外許多高等院校都已開展了機器人教學工作。麻省理工學院開設了認知機器人學、機器人學導論、自控機器人設計競賽和機器人編程競賽等課程,分別在航空航天學、機械工程學和電氣工程與計算機科學專業(yè)中開設;北京郵電大學為本科生開設了工業(yè)機器人技術,相應的實驗課為機器人系統(tǒng)綜合性試驗;浙江大學自動控制系為本科生開設了機器人學,在校內(nèi)組織了多種形式的機器人競賽活動,包括FIRA小型足球機器人競賽、開放性公共目標機器人競賽等。總之,國內(nèi)外高校廣泛開展了以機器人為對象的教學平臺建設,開設機器人技術課程、開展本科畢業(yè)設計的機器人實踐活動以及多層次機器人競賽活動。

2、語音識別技術基本方法

語音識別技術目前的主流算法,主要有傳統(tǒng)的基于動態(tài)時間規(guī)整(DynamicTimeWarping,簡稱DTW)算法、基于非參數(shù)模型的矢量量化(Vector Quantization,簡稱VQ)方法、基于參數(shù)模型的隱馬爾可夫模型(Hidden Markov Mod—els,簡稱HMM)方法和基于人工神經(jīng)網(wǎng)絡(Artificial NeuralNetwork,簡稱ANN)等語音識別方法。

3、語音識別機器人教學平臺研究與設計

3.1 設計思路

語音識別機器人教學平臺,將Windows CE6.O系統(tǒng)定制和移植到以ARM11為處理器的核心板上,并且在Windows CE6.O系統(tǒng)上實現(xiàn)對機器人的語音控制,從而擺脫基于PC機控制的不便。在實現(xiàn)過程中,將應用微軟公司開發(fā)的Speech SDK5.1為平臺,通過調(diào)用微軟的SpeechSDK語音識別引擎,使用開發(fā)板串口連接并驅(qū)動機器人執(zhí)行一些簡單的行為動作。

3.2 語音識別機器人教學平臺系統(tǒng)架構

本教學系統(tǒng)采用的$3C6410是一款基于ARM11內(nèi)核的微控制器,其主頻達667MHz,并具有豐富的接口。本控制器(如圖1)的硬件主要包括采用ARM11內(nèi)核的$3C6410微處理器、機器人驅(qū)動器、電源、串口、麥克風、揚聲器等。

本語音識別機器人,主要由開發(fā)板的麥克風接口進行語音信號的采集,通過控制器擴展板進行語音信號的處理,處理時調(diào)用微軟的語音識別引擎進行語音信號的識別與合成,然后通過內(nèi)部編程由擴展板的串口向機器人發(fā)送相關的指令來驅(qū)動電機的轉動,從而實現(xiàn)機器人的左轉、右轉、前進、后退、停止等語音控制。

3.3 教學平臺系統(tǒng)移植模型

系統(tǒng)移植模型(如圖2)協(xié)助WindowsCE實現(xiàn)廣泛的硬件支持,同樣使用了工具和軟件接口技術整合的形式。這一層的可移植性主要在3個層面:CSP支持不同的處理器系統(tǒng)結構;BSP支持不同的硬件主機板(I/0、總線等等);驅(qū)動程序支持不同的。從工具的角度看,開發(fā)工具主要是以指導手冊的形式協(xié)助開發(fā)者配置修改一個具體的OAL。驅(qū)動模型被包括在Windows CE的類別驅(qū)動程序中,這些類別驅(qū)動程序一般由Windows CE操作系統(tǒng)提供。

3.4 語音識別類封裝及算法實現(xiàn)流程

語音識別過程是將自然語言轉換為數(shù)據(jù)信息的過程,語音識別技術也可以簡單描述成Speech-to-Text的識別。該語音識別系統(tǒng)的處理過程是:學習者通過語音輸入設備輸入語音信號,然后通過語音接收器接收語音數(shù)據(jù)轉化為數(shù)字信號,傳入語音識別引擎進行處理,語音識別引擎處理完成后傳遞給相關語音識別程序去處理相關應用,從而達到利用語音來實現(xiàn)某種控制的效果。本系統(tǒng)的語音識別類封裝和語音識別算法實現(xiàn)流程如圖3所示。

篇(6)

14年前,志在語音識別的科大訊飛在合肥悄然成立,當時還被外界譏笑為“草臺班子”的這家本土創(chuàng)業(yè)公司,如今已經(jīng)發(fā)展成為亞太地區(qū)最大的語音上市公司。作為中國語音識別的“領頭羊”,科大訊飛的這個標簽還能貼多久?在科大訊飛副總裁兼創(chuàng)始人之一江濤看來,科大訊飛的突破點在于,提供語音識別的技術和服務,解放人們的雙手。

“草臺班子”的摸索

創(chuàng)業(yè)之初,科大訊飛希望改變?nèi)祟愂褂秒娔X的方式。但事實證明,時候未到。

上世紀90年代末,語音識別技術已經(jīng)在全球范圍內(nèi)掀起了一波熱潮,科大訊飛也是順著這股熱潮成立的?!氨藭r,IBM、英特爾等幾大主流科技公司也早已開始語音識別技術的研發(fā)和商業(yè)探索?!苯瓭嬖V《二十一世紀商業(yè)評論》(以下簡稱《21CBR》)。1998年IBM了第一個基于語音識別技術的產(chǎn)品。第二年全球科技十件大事之一便是IBM的語音識別技術,計算機第一次能夠進行語音輸入。除了IBM,英特爾、摩托羅拉、松下等很多國外巨頭也都開始在國內(nèi)設立語音研發(fā)中心,希望在人機交互和信息錄入領域搶占先機。

“但是在后來證明,這個技術和產(chǎn)品在當時的條件下是不成熟的。”江濤認為有兩個方面原因:一個是當時的語音針對PC,而PC相對于鍵盤和鼠標這些交互設備比較成熟,語音的需求并不夠迫切。另外,“當時整個云計算、移動互聯(lián)網(wǎng)的環(huán)境和體系還沒有形成。全是單機,在一臺機器上安裝一個語音識別系統(tǒng)需要鍛煉很久,使用成本太高。”

即便如此,直到2000年前后,中國的語音技術基本都掌握在IBM等大公司手中。而像科大訊飛這樣的本土創(chuàng)業(yè)公司,空有實驗室技術,在當時的環(huán)境下不知道該如何面向市場,面向用戶?!拔覀円恢钡?004年才盈虧平衡,在這個過程中我們沒有錢,也不知道該怎么開拓市場,所有人都是技術出身,都沒有產(chǎn)業(yè)經(jīng)驗?!苯瓭f。

創(chuàng)業(yè)之初,科大訊飛希望改變?nèi)祟愂褂秒娔X的方式?!拔覀儺敃r做了一個叫做‘暢言2000’的產(chǎn)品??谔柺前焰I盤輸入的準確性、語音輸入的方便性、手寫輸入的隨意性融合在一起,它可以打開瀏覽器,打開Word,然后配合手寫板輸入內(nèi)容?!边@是科大訊飛的第一個產(chǎn)品,一套軟件當時的定價是1000多元人民幣?!暗侨ツ睦锿茝V,怎么做推廣,我們完全不知道?!?/p>

隨著“暢言2000”以失敗告終,苦于推廣無門的科大訊飛第一次參加了當年的高交會。“當時華為等一些做電信設備的廠商公司發(fā)現(xiàn)了我們,在他們的呼叫中心智能網(wǎng)中間有需要使用語音的地方,比如說語音合成,呼叫中心的語音播報,智能網(wǎng)中間的信息播報等?!焙芸?,迅飛便跟華為、中興等一些大的廠商對接上,成為它們的語音技術提供商。

“我們后來一想也是這樣,一個創(chuàng)業(yè)團隊沒有市場經(jīng)驗,也沒有市場能力,沒有資金,不可能去做‘2C’的市場,那個時候的條件也不具備。做‘2B’的市場,做自己擅長的部分,把技術提供給合作伙伴,然后合作伙伴去做對應的應用更可行?!苯瓭f。這是科大迅飛的第一桶金,也是第一個商業(yè)模式?!耙揽窟@個模式,我們實現(xiàn)了盈虧平衡。到2004年,我們已經(jīng)是中國最大的語音技術提供商。”

在嘗到了做“技術提供商”的甜頭后,2004年,手機彩鈴被引進中國,“在沒有智能手機的時代,面對幾十萬首歌,用戶在電話里怎么選?”江濤說,為此,迅飛開發(fā)了針對音樂的語音搜索,“想下載誰的彩鈴,聽誰的歌,直接在電話里面語音搜索。”在這個基礎上,迅飛進一步把技術應用到跟音樂、彩鈴下載和搜索相關的其他領域?!艾F(xiàn)在聯(lián)通、電信,還有移動,相關于音樂的語音搜索技術全部由訊飛提供?!苯瓭f。

基于同樣的思路,迅飛開始把語音識別技術擴展到教育領域?!皬募夹g上看,針對這兩個領域,迅飛所做的事情主要是語音合成,把語音轉換成文字?!苯瓭嬖V《21CBR》,雖然在當時這個技術事實上已經(jīng)沒有門檻,但迅飛的優(yōu)勢在于做“技術提供商”的商業(yè)模式和針對細分領域提供的服務。目前,針對音樂和教育領域的收入依然是迅飛營收的主要來源之一?!艾F(xiàn)在音樂領域每年的收入大概在一個億左右?!?/p>

從技術到服務

語音識別不是完全靠算法能解決的,時間和數(shù)據(jù)積累才是最大的壁壘。

2008年前后,中國開始發(fā)放3G牌照,以蘋果、安卓為代表的智能機逐步興起?!拔覀冇X得這個時候語音技術真正的機會才出現(xiàn),因為智能手機相對于PC來說,屏幕更小,輸入更不方便,語音在人機交互過程中顯得更有價值?!苯瓭f。目前,訊飛所開發(fā)的手機應用訊飛語音已擁有超過2億用戶。

“我們現(xiàn)在最大的挑戰(zhàn)還是用戶的習慣,尤其是中國人覺得對著手機說話太傻了?!苯瓭f。好在隨著蘋果、谷歌加上騰訊的微信正在不斷地教育用戶的使用習慣,越來越多的人開始適應這種跟機器的交流方式。

科大訊飛在移動互聯(lián)網(wǎng)領域的另一個產(chǎn)品是訊飛輸入法?!拔覀儚?011年開始做這個產(chǎn)品,當時訊飛沒有任何知名度,沒有品牌,完全靠用戶口碑來推廣。”江濤說。目前,訊飛輸入法的用戶超過8000萬。

盡管移動互聯(lián)網(wǎng)來勢洶洶,江濤和他的團隊還是希望把自己定位為“語音服務提供商”。“我們一方面還會持續(xù)面向電視機、汽車、地圖等合作伙伴提供語音技術,另外一方面也會以輸入法這些產(chǎn)品為代表,面向用戶提供直接的交互服務和終端產(chǎn)品。”江濤告訴《21CBR》記者。目前,康佳、海爾、創(chuàng)維、海信等電視廠商都采用了迅飛語音識別技術和開發(fā)平臺。訊飛也與國內(nèi)主要汽車電子廠商及車廠等建立了合作,包括奇瑞、江淮、上汽、奧迪、德爾福、大陸電子、哈曼等,但這一領域?qū)緺I收的貢獻微乎其微。

從技術的角度來看,語音識別在過去20年的發(fā)展和進化過程中早已不再擁有高門檻。在外界看來,科大訊飛缺乏足夠?qū)拸V的護城河——掌握互聯(lián)網(wǎng)入口的企業(yè)百度、騰訊等巨頭,都在覬覦語音識別領域。而隨著3G網(wǎng)絡和智能終端的普及,這些條件又為語音識別打開了一扇新的大門。江濤也認為:“目前,就技術上的發(fā)展來講,語音識別的門檻的確不高,大數(shù)據(jù)云計算帶來了更加開闊的技術可能性和便利。”

篇(7)

上面這段并非筆者杜撰,而是著名的語音和圖像解決方案提供商Nuance公司研發(fā)工程總監(jiān)張亞昕為大家描述的語音識別技術在車載系統(tǒng)中的應用情景。

其實,語音識別技術早已有之,1998年,飛利浦和摩托羅拉就將語音識別技術引入手機,但并沒有引起人們的關注,直到去年蘋果iphone 4里的Siri出現(xiàn),才讓人們真正開始關注語音識別。張亞昕認為,這主要是因為以前的技術只能進行特定詞匯的語音識別,而如今的語音識別技術可以識別自然語言,真正讓用戶體會到了流暢自然的人機交互體驗。

也許是因為汽車內(nèi)安全駕駛的重要性吧,語音識別技術特別受到了汽車市場的青睞。越來越多的汽車制造商開始在汽車中裝入語音識別接口,用于管理移動連接;同時提高駕駛安全系數(shù)。Strategy Analytics的統(tǒng)計表明,到2012年,中國原始設備制造商(OEM)所提供的具備語音人機接口的信息娛樂和車載信息通信系統(tǒng)(telematics)的出貨量將達到300萬臺,并預期在2018年達到20009萬臺。

但是,語音識別是非常耗費資源的一項工作,在目前的應用中,用戶接口依賴于通用型硬件和軟件,一般采用通用的應用處理器,語音識別只是眾多應用中的一個程序,系統(tǒng)硬件無法為語音處理做出優(yōu)化,限制了處理速度和處理精度。例如,在車載GPS應用中,地圖軟件的運行就會占據(jù)處理器很多資源,這種情況下,啟用語音識別將會給CPU帶來很大負擔,處理能力上的不足會影響語音識別的速度和準確度,讓用戶體驗大打折扣。