當(dāng)前位置首頁 > 行業(yè) > 文化 >

哭笑不得！AI經(jīng)?！翱床欢敝形木渥?/b>

中文分詞新模型幫它進(jìn)步

來源：中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng) 時間：2020-07-23

人工智能經(jīng)?！翱床欢敝形木渥?，讓人哭笑不得。在日前舉行的自然語言處理領(lǐng)域（NLP）頂級學(xué)術(shù)會議ACL2020上，來自創(chuàng)新工場大灣區(qū)人工智能研究院的兩篇論文入選。這兩篇論文均聚焦自然語言處理中文分詞領(lǐng)域。

　　據(jù)研究人員介紹，分詞及詞性標(biāo)注是中文自然語言處理的基本任務(wù)，但當(dāng)前沒有比較好的一體化解決方案，而且中文分詞普遍存在歧義和未登錄詞的難題。

　　基于此，兩篇論文各自提出了鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型和基于雙通道注意力機(jī)制的分詞及詞性標(biāo)注模型，將外部知識（信息）融入分詞及詞性標(biāo)注模型，剔除了分詞“噪音”誤導(dǎo)，提升了分詞及詞性標(biāo)注效果。

　　中文分詞主要面臨歧義和未登錄詞兩大難點

　　據(jù)介紹，中文分詞的目的是在中文的字序列中插入分隔符，將其切分為詞。例如，“我喜歡音樂”將被切分為“我/喜歡/音樂”。

　　創(chuàng)新工場大灣區(qū)人工智能研究院執(zhí)行院長宋彥分析，中文語言因其特殊性，在分詞時面臨著兩個普遍的主要難點。

　　一是歧義問題，由于中文存在大量歧義，一般的分詞工具在切分句子時可能會出錯。例如，“部分居民生活水平”，其正確的切分應(yīng)為“部分/居民/生活/水平”，但存在“分居”“民生”等歧義詞。

　　二是未登錄詞問題。未登錄詞指的是不在詞表，或者是模型在訓(xùn)練的過程中沒有遇見過的詞。這類問題在跨領(lǐng)域分詞任務(wù)中尤其明顯。宋彥介紹，這些未登錄詞，會非常影響分詞和詞性標(biāo)注模型和系統(tǒng)的性能。

　　利用記憶神經(jīng)網(wǎng)絡(luò)提升中文分詞性能

　　對此，其中一篇論文提出了基于鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型。

　　宋彥介紹，該模型利用n元組（即一個由連續(xù)n個字組成的序列，比如“居民”是一個2元組，“生活水平”是一個4元組）提供的每個字的構(gòu)詞能力，通過加（降）權(quán)重實現(xiàn)特定語境下的歧義消解。并通過非監(jiān)督方法構(gòu)建詞表，實現(xiàn)對特定領(lǐng)域的未標(biāo)注文本的利用，進(jìn)而提升對未登錄詞的識別。

　　把可能成詞的組合全部找到以后，加入到該分詞模型中。然后通過神經(jīng)網(wǎng)絡(luò)，學(xué)習(xí)哪些詞對于最后完整表達(dá)句意的幫助更大，進(jìn)而分配不同的權(quán)重。例如，在“部分居民生活水平”這句話中，“部分”“居民”“生活”“水平”這些詞會被突出，而“分居”“民生”會被降權(quán)處理，從而預(yù)測出正確的結(jié)果。

　　據(jù)介紹，為了檢驗該模型的分詞效果，論文進(jìn)行了嚴(yán)格的標(biāo)準(zhǔn)實驗和跨領(lǐng)域?qū)嶒??！拔覀冊?個經(jīng)常使用的標(biāo)準(zhǔn)中文分詞數(shù)據(jù)集（MSR、PKU、AS、CityU、CTB6）上面，都達(dá)到了最好的效果，在這五個數(shù)據(jù)集上的分?jǐn)?shù)都刷到了歷史新高?！彼螐┱f。

　　雙通道注意力機(jī)制剔除“噪音”誤導(dǎo)

　　第二篇論文則提出了一種基于雙通道注意力機(jī)制的分詞及詞性標(biāo)注模型。

　　據(jù)介紹，中文分詞和詞性標(biāo)注是兩個不同的任務(wù)。詞性標(biāo)注是在已經(jīng)切分好的文本中，給每一個詞標(biāo)注其所屬的詞類，例如動詞、名詞、代詞、形容詞。詞性標(biāo)注對后續(xù)的句子理解有重要的作用。

　　“‘他馬上功夫很好’這句話，在使用外部的句法知識的時候，可能會存在‘馬上’這個詞被分錯的情況。正確的結(jié)果應(yīng)該是‘馬’和‘上’分開，但是這兒如果被分成一個詞，就會被識別為一個副詞。”宋彥舉例說。

　　研究人員介紹，針對這一問題，該論文提出的模型將中文分詞和詞性標(biāo)注視作聯(lián)合任務(wù)，可一體化完成。模型分別對自動獲取的上下文特征和句法知識加權(quán)，預(yù)測每個字的分詞和詞性標(biāo)簽，不同的上下文特征和句法知識在各自所屬的注意力通道內(nèi)進(jìn)行比較、加權(quán)，從而識別特定語境下不同上下文特征和句法知識的貢獻(xiàn)。

　　為了測試該模型的性能，論文在一般領(lǐng)域和跨領(lǐng)域分別進(jìn)行了實驗。宋彥介紹，一般領(lǐng)域?qū)嶒灲Y(jié)果顯示，該模型在5個數(shù)據(jù)集（CTB5，CTB6，CTB7，CTB9，UniversalDependencies）的表現(xiàn)（F值）均超過前人的工作。（記者劉園園）

　　轉(zhuǎn)自：科技日報

返回產(chǎn)經(jīng)網(wǎng)首頁 >>

　　【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品，轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”，違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊，僅代表作者個人觀點，不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系：010-65367254。

延伸閱讀

熱點視頻

關(guān)注棗莊市中首屆青年發(fā)展論壇，聽秘書長怎么說

關(guān)注棗莊市中首屆青年發(fā)展論壇，聽秘書長怎么說

創(chuàng)客一起拍，奮斗“秀”出來！

鑫香園精菜坊

提振信心釋放潛力市場明顯回暖

5億、10億、20億......山東又有一大批財政政策即將出臺

6類困難行業(yè)納稅人、增值稅小規(guī)模納稅人看過來，申請減免稅時間方式全在這

熱點新聞

新基建投資提速助力經(jīng)濟(jì)高質(zhì)量發(fā)展

外貿(mào)上半年好于預(yù)期下半年仍須謹(jǐn)慎樂觀

多部委頻頻部署加力保就業(yè)迎下半場

多部委齊發(fā)定心丸下半年物價穩(wěn)中有降態(tài)勢不改

穩(wěn)企業(yè)擴(kuò)內(nèi)需地方征戰(zhàn)下半年穩(wěn)增長

22省份上半年投資轉(zhuǎn)正西部地區(qū)領(lǐng)跑
/pc}

熱點輿情

特朗普被批無視美10萬人死亡歐洲多國棄用羥氯喹治療新冠

美國生物實驗室疑云：全球布局的“達(dá)摩克利斯之劍”

世衛(wèi)組織：可能迎來第二波疫情或第二個高峰

“我看不見你的樣子，但我知道你是誰”——寫在國際護(hù)士節(jié)來臨之際

想摘口罩、逛商場、下館子、看電影？國務(wù)院發(fā)布指導(dǎo)意見！

欠薪零容忍 2020年第一批拖欠農(nóng)民工工資“黑名單”出爐
/pc}

特色小鎮(zhèn)

特色小鎮(zhèn)須在“特”上做文章

特色小鎮(zhèn)成中國經(jīng)濟(jì)發(fā)展新引擎

多部門發(fā)力，為特色小鎮(zhèn)提供金融支持

特色小鎮(zhèn)如何建？專家來渝暢談特色小鎮(zhèn)創(chuàng)新與發(fā)展之路

建設(shè)特色小鎮(zhèn)切忌一哄而上

讓特色小鎮(zhèn)回歸“特色”
/pc}

哭笑不得！AI經(jīng)?！翱床欢敝形木渥?/b>

中文分詞新模型幫它進(jìn)步

熱點視頻

熱點新聞

熱點輿情

特色小鎮(zhèn)

微信公眾號

哭笑不得！AI經(jīng)?！翱床欢敝形木渥?/b>