一枚硬幣大小的石墨烯片,貼在頸部靠近喉嚨處,就能幫助發(fā)音障礙者獲得新“聲”。近日,清華大學集成電路學院任天令教授及合作團隊在智能語音交互方面取得重要進展,其研發(fā)的可穿戴人工喉可以感知喉部發(fā)聲相關信號,并通過人工智能模型將其識別和合成為語音,還原準確率超過90%。
這一研究結果為語音識別與交互系統(tǒng)提供了一條新的技術途徑,并于近日在線發(fā)表在《自然》人工智能子刊《自然·機器智能》上。
語音是人類交流的重要方式,但說話人的健康狀態(tài)(例如神經(jīng)疾病、癌癥、外傷等原因?qū)е碌穆曇粽系K)和周圍環(huán)境(噪音干擾、傳播介質(zhì))往往會影響聲音的傳輸和識別。一直以來,研究人員在致力改進語音識別和交互技術以應對微弱的聲源或嘈雜的環(huán)境。多通道聲學傳感器可以顯著提高聲音識別的精度,但會導致更大的設備體積,而可穿戴設備能夠獲取高質(zhì)量的原始語音或其他生理信號。然而,目前尚無充分的證據(jù)表明喉部肌肉的運動模式和反映在體表的發(fā)聲器官振動中隱含著可識別的語音特征,且尚無實驗證明其作為語音識別技術的完備性。
為解決這一問題,任天令團隊成員開發(fā)了一款基于石墨烯的智能可穿戴人工喉,同商業(yè)麥克風和壓電薄膜相比,人工喉對低頻的肌肉運動、中頻食管振動和高頻聲波信息有很高的靈敏度,同時也具有抗噪聲的語音感知能力。對聲學信號和機械運動的混合模態(tài)的感知使人工喉能夠獲得更低的語音基頻信號。此外,該器件還可以通過熱聲效應實現(xiàn)聲音的播放功能。人工喉的制作過程簡單、性能穩(wěn)定、易于集成,為語音識別和交互提供了一種新的硬件平臺。
團隊還利用人工智能模型對人工喉感知的信號進行語音識別和合成,實現(xiàn)了對基本語音元素(音素、聲調(diào)和詞語)的高精度識別,以及對喉癌患者模糊語音的識別與再現(xiàn),為聲音障礙者的溝通和交互提供了一種創(chuàng)新的解決方案。
實驗結果表明,人工喉采集的混合模態(tài)語音信號可以識別基本語音元素(音素、音調(diào)和單詞),平均準確率為99.05%。同時人工喉的抗噪聲性能明顯優(yōu)于麥克風,在60分貝以上環(huán)境噪聲下仍能保持識別能力。任天令研究團隊進一步演示了它的語音交互式應用:通過集成AI模型,人工喉能夠識別一名喉切除術患者模糊說出的日常詞語,準確率超過90%。識別出的內(nèi)容被合成為語音在人工喉上播放,可以初步恢復患者的語音交流能力。
任天令介紹,該人工喉還有很大的優(yōu)化和拓展空間,例如提高聲音的質(zhì)量和音量,增加語音的多樣性和表情,以及結合其他生理信號和環(huán)境信息實現(xiàn)更自然和智能的語音交互。研究團隊希望通過進一步的研究和合作,讓人工喉造福更多的聲音障礙者和語音交互的用戶。(記者鄧暉)
轉自:光明日報
【版權及免責聲明】凡本網(wǎng)所屬版權作品,轉載時須獲得授權并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關法律責任的權力。凡轉載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網(wǎng)觀點和立場。版權事宜請聯(lián)系:010-65363056。
延伸閱讀