語義分析技術(shù):知識工程平臺的基石


時間:2014-03-24





摘要:知識工程旨在面向企業(yè)業(yè)務(wù)應用需求,通過一系列以知識為對象的工程實踐達到海量信息中的知識挖掘、知識的高效組織應用。其中知識的表示,以及如何大規(guī)模地獲取知識是支撐其目標達成的關(guān)鍵技術(shù),也是技術(shù)難點。而語義分析為知識的獲取和應用提供了一種有效的方法和手段。

從企業(yè)層面講,企業(yè)開展知識工程建設(shè)旨在面向企業(yè)業(yè)務(wù)應用需求,通過一系列以知識為對象的工程實踐達到海量信息中的知識挖掘、知識的高效組織應用。主要包括三大要素:知識獲取、知識組織表示和知識應用。想要獲取知識和實現(xiàn)知識的應用,首先要知道知識長什么樣,當前主要的知識表示形式為一個包含多種不同類型的結(jié)點和邊的知識圖以及圖結(jié)點之間的關(guān)系集合。那么如何獲得這個結(jié)點以及如何獲得這個邊(關(guān)系)就是知識獲取所要做的工作。

圖1知識圖示例

當前知識獲取主要有三種方式:非自動知識獲取、知識抽取、機器學習知識。非自動知識獲取常采用直接編輯知識、利用大眾智慧等手段,效率較低,無法應用于大規(guī)模的知識獲??;完全機器學習的難度較大;知識抽取是目前最有效的方式。

所謂知識抽取,指的是通過對文本資料進行內(nèi)容分析處理,對蘊含于文本中的知識進行識別、理解和篩選,抽取出每個知識點,并以一定的形式存入知識庫中。那么如何通過對文本資料進行內(nèi)容分析從而達到識別并抽取出知識的目的呢?語義分析就是有效的手段和方法。

語義,又稱語意,指的是話語所包含的意義,在計算機科學領(lǐng)域,可以稱之為數(shù)據(jù)對應現(xiàn)實世界中事物所代表概念的含義。簡單來說,語義分析的根本目的是為了讓計算機理解自然語言,一旦計算機擁有了這種能力,就可以從文本信息中識別并抽取出知識。

對于特定領(lǐng)域來說,完全句法分析和深入的語義理解一方面在技術(shù)上還達不到,而且也是沒有必要的。只要從輸入的文本中抽取關(guān)注的信息,填寫在預定義好的模板的屬性槽中,即可完成特定領(lǐng)域文本的知識抽取的第一步。

如這段文字:2005年11月1日,周杰倫發(fā)行了第六張國語專輯《十一月的蕭邦》,包含了《夜曲》、《發(fā)如雪》等十二首動聽的歌,大家可以在專輯當中,嗅出他潛藏的浪漫古典因子。

圖2主體與事件抽取示例

圖2就是典型的通過主體和事件將這段文字轉(zhuǎn)化為一張圖的例子,其中主體是指某種具體事物的個體或集合體,事件是指與主體所施行的或主體被施加的動作、過程等等。如前所說,這只是知識抽取的第一步,如果只停留在這個層面,我們只能稱之為信息抽取,而非知識抽取。將N篇這樣的文章進行信息抽取處理,然后建立它們之間的關(guān)聯(lián),形成一個網(wǎng)絡(luò)。以新聞為例,經(jīng)過抽取和管理,我們可以看到某個地點發(fā)生的各類新聞,發(fā)現(xiàn)在某個人物身上的各類新聞,甚至于可以抽取到兩個新聞之間內(nèi)在的關(guān)聯(lián)(比如這兩個新聞所述對象是某某關(guān)系)等等,而這些可以稱之為關(guān)聯(lián)類的知識。

目前,這種基于語義的半自動抽取技術(shù)在特定產(chǎn)業(yè)領(lǐng)域商業(yè)化、工程化應用較少,這是因為如果想獲得高質(zhì)量的語言分析結(jié)構(gòu),就需要構(gòu)建面向特定領(lǐng)域的成熟語料。

北京億維訊科技有限公司依托基于語義的知識抽取技術(shù)及其知識工程平臺在石化等特定領(lǐng)域的應用,是目前為數(shù)不多的領(lǐng)域化應用。億維訊將“業(yè)務(wù)對象”和“業(yè)務(wù)主題”作為文本中的抽取點,編寫該產(chǎn)業(yè)領(lǐng)域不同知識類型的知識模板框架,在文本分析挖掘時首先進行知識類別識別,根據(jù)類別調(diào)用相應的框架。圖3為從億維訊知識工程軟件界面中截取的方法類知識模板,其中摘要是半自動提取,關(guān)鍵詞、分類、業(yè)務(wù)主題、知識來源、提供者等為自動提取。據(jù)了解,目前億維訊正在設(shè)計更加細化、具有針對性的可配置摘要,即形成摘要的模板框架。

通過將知識模板中知識的相關(guān)屬性進行關(guān)聯(lián),則可以構(gòu)建關(guān)于某一特定業(yè)務(wù)主題或其它屬性的知識網(wǎng)絡(luò)。

圖3知識模板示例

將語義分析落實到大量的具體的篇章文本上,形成熟語料庫,其中包括詞匯級別的義素、語義特征的標注、實體標注,句子級別的語義角色標注,還有語法句法范圍的詞性標注、句法功能標注等等。我們可以想象,當大量文章(一般來說至少100萬字的量級)進行了這樣的標注后,我們需要什么知識,就可以從中抽取出一些信息后進行加工和關(guān)聯(lián)而得到。在未來,或者說已經(jīng)有人在做,當標注好的熟語料已經(jīng)達到一定量級,我們甚至可以通過機器學習的方式對其他未標注的文章進行自動標注,那么也就實現(xiàn)了自然語言計算機自動處理的最終目標,也就解決了知識自動獲取的難題。

不僅如此,基于語義的知識獲取與表示因為使知識具有了良好定義的語法和語義,所以有充分的表達能力,能清晰的表達有關(guān)領(lǐng)域的各種知識;便于有效的檢索和共享;容易管理,易于維護知識庫的完整性和一致性。而這些正是知識工程的應有之義。因此,我們說,語義分析是知識工程建設(shè)中非常關(guān)鍵的支撐技術(shù),是知識工程平臺的基石。

來源:TOM網(wǎng)



  版權(quán)及免責聲明:凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責任的權(quán)力。凡轉(zhuǎn)載文章,不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系:010-65363056。

延伸閱讀

熱點視頻

第六屆中國報業(yè)黨建工作座談會(1) 第六屆中國報業(yè)黨建工作座談會(1)

熱點新聞

熱點輿情

特色小鎮(zhèn)

版權(quán)所有:中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)京ICP備11041399號-2京公網(wǎng)安備11010502003583