當(dāng)前位置首頁(yè) > 中國(guó)制造 > 創(chuàng)新 >

捷通華聲靈云語(yǔ)音質(zhì)檢系統(tǒng)——深度神經(jīng)網(wǎng)絡(luò)的新應(yīng)用

時(shí)間：2014-03-21

前言：深度神經(jīng)網(wǎng)絡(luò)（DNN）是近幾年在工業(yè)界和學(xué)術(shù)界新型的一個(gè)機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn)話題。DNN算法成功的將以往的智能識(shí)別率提高了一個(gè)顯著的檔次，可以極大地提高圖像、語(yǔ)音識(shí)別的準(zhǔn)確度，可以更快地推動(dòng)智能人機(jī)交互（HCI）技術(shù)的進(jìn)步。

自DNN發(fā)展以來(lái)，該技術(shù)已成功應(yīng)用于語(yǔ)音識(shí)別技術(shù)領(lǐng)域，并取得很好的效果，在移動(dòng)互聯(lián)網(wǎng)中已實(shí)現(xiàn)廣泛應(yīng)用。近一年來(lái)，伴隨語(yǔ)音質(zhì)檢系統(tǒng)在各在呼叫中心得到越來(lái)越廣的重視，捷通華聲通過(guò)與清華大學(xué)合作，成功將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到靈云語(yǔ)音質(zhì)檢分析系統(tǒng)中，促進(jìn)語(yǔ)音轉(zhuǎn)寫(xiě)識(shí)別率達(dá)到實(shí)用化水平，從而使語(yǔ)音質(zhì)檢質(zhì)量與效率得到大幅提升。

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域，其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)，它模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù)，例如圖像，聲音和文本。2010年，微軟雷德蒙研究院發(fā)現(xiàn)深層網(wǎng)絡(luò)可顯著提高語(yǔ)音識(shí)別的精度。此后，微軟亞洲研究院在測(cè)試中發(fā)現(xiàn)應(yīng)用DNN的語(yǔ)音識(shí)別模型識(shí)別錯(cuò)誤率比最低錯(cuò)誤率降低了33%之多，即絕對(duì)識(shí)別率提升了6.6%。

“使結(jié)果發(fā)生翻天覆地變化的是DNN，通過(guò)應(yīng)用DNN，在日常對(duì)話中，最多可使單詞識(shí)別錯(cuò)誤率比之前降低42%。這意味著，以往10個(gè)錯(cuò)誤，有4個(gè)能用這種方法解決。這是自HMM（隱馬爾科夫模型）出現(xiàn)以來(lái)，單項(xiàng)技術(shù)使語(yǔ)音識(shí)別精確度獲得的最大提升”，微軟亞洲研究院研究員Frank Seide解釋道。

顯然，比起傳統(tǒng)的混合高斯模型（GMM），DNN在識(shí)別精度上具有相當(dāng)?shù)膬?yōu)勢(shì)。

在采用了最先進(jìn)的第4代深度神經(jīng)網(wǎng)絡(luò)算法后，捷通華聲靈云語(yǔ)音識(shí)別的通用語(yǔ)音識(shí)別率達(dá)到93%以上，定制模型的識(shí)別率達(dá)到97%以上，各項(xiàng)指標(biāo)已經(jīng)達(dá)到國(guó)內(nèi)最好水準(zhǔn)。然而，在對(duì)其他聲源的識(shí)別能力上DNN是否會(huì)有所突破呢？2013年，捷通華聲與清華大學(xué)合作，開(kāi)始在靈云語(yǔ)音質(zhì)檢系統(tǒng)上應(yīng)用DNN技術(shù)。該系統(tǒng)以識(shí)別“電話通道語(yǔ)音”為核心，將通話錄音中的語(yǔ)音信息提取出來(lái)，通過(guò)靈云語(yǔ)音識(shí)別轉(zhuǎn)換成文本保存在系統(tǒng)中，再通過(guò)提取關(guān)鍵詞、靜音檢測(cè)、情緒檢測(cè)、語(yǔ)速檢測(cè)等方式對(duì)語(yǔ)音進(jìn)行篩選分析，從而得出質(zhì)檢結(jié)果。通過(guò)靈云語(yǔ)音質(zhì)檢系統(tǒng)，可以幫助客戶將客服錄音數(shù)據(jù)進(jìn)行各種分析，從而針對(duì)性地改善呼叫中心的服務(wù)質(zhì)量。其中除對(duì)企業(yè)自身呼叫中心質(zhì)檢之外，這套系統(tǒng)還可以為企業(yè)分析客戶的反饋意見(jiàn)，跟蹤廣大用戶的熱點(diǎn)問(wèn)題，從而對(duì)公司的產(chǎn)品和服務(wù)提出優(yōu)化建議，實(shí)現(xiàn)更加精準(zhǔn)的市場(chǎng)決策。因此，“電話通道語(yǔ)音”識(shí)別的精度越高意味著語(yǔ)音質(zhì)檢的效率越高、客戶體驗(yàn)越好。在應(yīng)用DNN之后，客戶普遍反映靈云語(yǔ)音質(zhì)檢的質(zhì)量和效率已經(jīng)有明顯的提升，證明了DNN在多聲源識(shí)別中的適用能力。

DNN的火熱雖早已經(jīng)引起語(yǔ)音企業(yè)的重視，而圖像是DNN最早嘗試的應(yīng)用領(lǐng)域——它已經(jīng)使 YouTube的視頻分類提高了70%的準(zhǔn)確率。而恰好圖像識(shí)別又是靈云的另一條主打產(chǎn)品線：靈云智能圖像。在語(yǔ)音識(shí)別和DNN產(chǎn)生化學(xué)反應(yīng)后，我們有理由期待靈云智能圖像識(shí)別&DNN在票證、車(chē)牌、人臉等圖像識(shí)別領(lǐng)域的更新的表現(xiàn)。

捷通華聲在語(yǔ)音識(shí)別、圖像識(shí)別等技術(shù)領(lǐng)域全面應(yīng)用DNN，得到了清華大學(xué)的鼎力支持。2013年，清華大學(xué)產(chǎn)業(yè)基金入資捷通華聲，成為捷通華聲第二大股東，也因此確立了捷通華聲與清華大學(xué)的戰(zhàn)略合作關(guān)系，并得到清華大學(xué)HCI領(lǐng)域中強(qiáng)大科研力量的支持。捷通華聲憑借自身在智能語(yǔ)音、智能圖像、自然語(yǔ)言理解等技術(shù)領(lǐng)域的技術(shù)積累，與清華大學(xué)HCI技術(shù)各領(lǐng)域?qū)嶒?yàn)室、專家教授建立起聯(lián)合研究機(jī)制，為長(zhǎng)期發(fā)展HCI技術(shù)奠定了堅(jiān)實(shí)的基礎(chǔ)。

捷通華聲此次與清華大學(xué)在DDN領(lǐng)域的成功合作，也標(biāo)示清華大學(xué)在HCI技術(shù)領(lǐng)域的雄厚科研力量通過(guò)與市場(chǎng)需求的緊密結(jié)合，開(kāi)始全面服務(wù)社會(huì)。未來(lái)發(fā)展，捷通華聲將發(fā)揚(yáng)清華大學(xué)在國(guó)家科技進(jìn)步、國(guó)民經(jīng)濟(jì)建設(shè)中的強(qiáng)大推動(dòng)力與影響力，全面推進(jìn)靈云發(fā)展戰(zhàn)略，促進(jìn)提升清華大學(xué)HCI技術(shù)在產(chǎn)業(yè)中的影響力，助力清華大學(xué)構(gòu)建“學(xué)術(shù)超前、科研領(lǐng)先、產(chǎn)業(yè)化推廣最強(qiáng)”的領(lǐng)導(dǎo)地位，從而共同實(shí)現(xiàn)“靈云科技源自清華服務(wù)全球”的戰(zhàn)略發(fā)展規(guī)劃，為中國(guó)HCI產(chǎn)業(yè)化發(fā)展做出更大的貢獻(xiàn)。

更多信息，請(qǐng)瀏覽靈云開(kāi)發(fā)平臺(tái)：www.hcicloud.com

　　版權(quán)及免責(zé)聲明：凡本網(wǎng)所屬版權(quán)作品，轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來(lái)源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”，違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章，不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系：010-65363056。

延伸閱讀

熱點(diǎn)視頻

第六屆中國(guó)報(bào)業(yè)黨建工作座談會(huì)（1）

熱點(diǎn)新聞

熱點(diǎn)輿情

特色小鎮(zhèn)

捷通華聲靈云語(yǔ)音質(zhì)檢系統(tǒng)——深度神經(jīng)網(wǎng)絡(luò)的新應(yīng)用

熱點(diǎn)視頻

熱點(diǎn)新聞

熱點(diǎn)輿情

特色小鎮(zhèn)

微信公眾號(hào)