王鐵錚 白宇 張桂平
摘 要:隨著社會產品的多樣變化和大數(shù)據(jù)時代的發(fā)展需求,產品信息抽取有著重要的研究意義。針對抽取過程中過多的人工參與和抽取準確度不高的情況,提出一種基于統(tǒng)計和知識相結合的產品部件信息自動抽取方法。為確保抽取的相關性,采用詞頻剪枝過濾干擾詞,使用雙向長短期記憶模型將詞進行分布式表示并計算語義相關度;為確保抽取的完整性,引入知網知識庫,根據(jù)詞語首義原的分類來驗證抽取結果是否為部件類概念詞。實驗在120萬篇產品專利摘 要上進行詞向量訓練,分別對運輸交通設備、通訊電子設備、儀器儀表和機械器材四類產品進行測試,證明了模型的可行性和算法的有效性。
關鍵詞:信息抽取 雙向長短期記憶模型 分布式表示 知網
中圖分類號:V263 文獻標識碼:A 文章編號:1003-9082(2018)04-00-03
引言
我們隨著科學技術的蓬勃發(fā)展、新產品的不斷涌現(xiàn),使得描述產品部件信息的詞匯集合處于不斷擴大并更新的狀態(tài),因此以往靠人工收集產品部件信息的方式顯然已經滿足不了人們的需求,利用計算機自動抽取這些信息已成為必然。信息抽取[1]是對文本中包含的信息進行結構化處理,再對其進行存儲的過程,在這個信息爆炸的時代,信息抽取能夠幫助我們完成對信息的快速整理和分析,提高工作效率。
產品部件信息抽取,是信息抽取的一種形式,其是將不同文本對于某一產品的部件信息集中起來,能從不同的角度反映產品的相關組成信息,對產品的部件進行抽取有助于全面地了解這些產品。例如,有關介紹電腦的文本中提到“一種用于電視游戲機的電腦控制器,是利用電腦主機的插頭嵌設在游戲機的主體上的插槽中”,在描述中可知,“控制器”和“主機”是電腦的組成部件,如何在文本中,準確高效的獲取到產品的組成部件信息,就是本文的主要解決的問題。
一、相關研究
目前產品部件信息抽取的方法主要分為三種:基于語言規(guī)則的方法[2]、基于統(tǒng)計的方法,以及規(guī)則和統(tǒng)計相結合的方法?;谡Z言規(guī)則方法具有明顯的缺陷,即難以用少量規(guī)則覆蓋復雜的存在規(guī)律,以及當規(guī)則數(shù)達到一定數(shù)量時產生的相互沖突問題?;诮y(tǒng)計的方法主要的統(tǒng)計策略有互信息[3,4]、詞頻、連續(xù)指數(shù)、左右熵[5]、log-likehood、TF-IDF等。這些統(tǒng)計策略各有優(yōu)缺點和適用對象,沒有一個方法能獨立使用即可抽取出各種類型的信息并達到良好的效果,因此融合多統(tǒng)計特征的統(tǒng)計模型是目前比較主流的統(tǒng)計方法。而基于規(guī)則和統(tǒng)計相結合的方法則[6-10]可以取長補短,是目前廣泛采用的方法。結合的方式通常有兩種,即先規(guī)則后統(tǒng)計和先統(tǒng)計后規(guī)則,采用何種方式需要根據(jù)具體應用和算法效果而決定。
本文提出了一種基于統(tǒng)計和知識相結合的抽取方法,為了可以全面準確的獲取產品部件信息,本文在眾多的信息源中,選擇專利文獻為抽取對象,為獲取與產品相關的候選詞,采用基于統(tǒng)計的方法,利用詞頻剪枝和雙向長短記憶模型計算語義相關度;為從相關候選詞中準確獲取產品部件概念詞,采用基于知識的方法,引入知網知識庫,根據(jù)對詞語首義原的分析進一步驗證抽取結果,兩種方法相結合,為產品部件信息的抽取提供一個新的思路。
二、基于統(tǒng)計和知識的產品信息抽取方法
本文實現(xiàn)一種基于統(tǒng)計和知識相結合的產品部件信息抽取方法,本文第一步是對產品專利摘要進行分詞,詞性標注和去停用詞的預處理;第二步是過濾非名詞詞性和詞長為1的干擾詞;第三步是通過詞頻剪枝,保留詞頻較高的候選詞;第四步是利用雙向長短記憶模型方法將詞表示成向量形式,計算產品與候選詞的余弦值,過濾相關度較低的干擾詞;第五步是引入知網知識庫,通過驗證候選詞在知網中首義原的定義,來判斷其是否為產品部件概念詞,本文方法框架如圖1所示。
1.基于統(tǒng)計的方法
1.1 詞頻剪枝
詞頻剪枝是一種詞匯分析研究方法,通過對一定長度文本的詞頻進行統(tǒng)計、分析,進而描繪出詞匯規(guī)律。詞頻從一定程度上可以描述詞匯的重要程度,在抽取產品部件概念詞過程中,依照詞頻的排序去除干擾詞是很基礎但是效果很好的一種方法。詞頻計算公式如下2-1所示,本文設定了一個詞頻閾值,高于閾值的候選詞,表示是該產品專利的重要詞;低于閾值的候選詞,表示是該產品專利的非重要詞,通過詞頻剪枝,過濾掉非重要的干擾詞。
其中:di是計算詞頻的目標詞;count(di):是統(tǒng)計目標詞di的出現(xiàn)頻數(shù);dict:是候選專利中所有詞匯的字典;P(di):則是最終得到目標詞的概率。
1.2 雙向長短記憶模型實現(xiàn)Word Embedding
本文使用深層神經網絡中雙向長短記憶模型[12](Bi-LSTM)實現(xiàn)Word Embedding的訓練, Bi-LSTM是一個多層的神經網絡,采用隨機初始權重,每次訓練只得到一個局部最優(yōu)解,直接訓練詞的N維實數(shù)向量與內部節(jié)點向量的條件概率,并使用一系列優(yōu)化方法以提高訓練效率,雖然是基于CBOW模型結構,但是將原來的在固定窗口內對Word Embedding取平均作為語境模型替換了,替換為一個更有效的神經模型,通過將它們嵌入到相同的低維空間中來學習上下文和目標詞表示,其中通過對數(shù)線性模型將目標詞預測為目標詞,利用更多的強大的參數(shù)模型來捕捉上下文的本質。
Bi-LSTM神經網絡的輸入是關鍵詞所在的句子的兩個上下文向量,一個是由從左至右句子(“汽車”)的LSTM形成的,另一個是由從右至左句子(“正常啟動”)的LSTM形成的,這兩個網絡的參數(shù)是完全獨立的,如下圖2示例,為了表示句子中目標詞的上下文(例如,對于“汽車[發(fā)動機]啟動正?!保?,首先連接代表右-至-左向量與左-至-右向量,目的是捕捉相關的上下文信息,即使它遠離目標詞,矢量表示公式如2-2所示:
接下來將連接向量饋送到多層感知機中,以便表示上下文的依賴關系,該層的輸出是圍繞目標詞的聯(lián)合上下文信息的向量,表示公式如2-3所示:
其中,MLP代表多層感知機,ReLU是激活函數(shù),Li(x)=Wix+bi全連接線性操作,將連接后的向量輸入到多層感知機。
最后,為了學習網絡的參數(shù),使用CBOW模型的負采樣目標函數(shù),表示公式如2-4所示:
其中,t表示求和遍歷訓練語料中的每一個詞和c則是它所對于的句子語境,σ表示sigmoid函數(shù)。
訓練結果后,任意兩個詞的語義相關程度可以通過計算兩個詞對應向量的余弦相似度得到,計算公式如2-5所示。計算的結果很好的反映了兩個詞向量的相關度,余弦值接近1,表明兩個詞的相關度高;余弦值接近-1,表明兩個詞的相關度低,通過將計算的結果根據(jù)余弦值由高到低的順序排序,為下一步驗證提供了與產品相關的候選詞。
其中V1代表產品的詞向量;V2代表候選產品部件概念詞的詞向量。cos(V1,V2)代表產品與候選產品部件概念詞的余弦相似度。
2.基于知識的方法
知網是中文使用最為廣泛的可計算語義詞典[13]。知網[14]認定的七個最上層的類別,分別是:事件類、萬物類、屬性類、屬性值類、部件類、空間類和時間類。
對于產品組成部件,正好可以通過知網對萬物定義的首義原來進行分類,雖然在知網知識庫中,已經在DEF中定義了“part-whole”這種存在關系,然而在知網知識庫所包含的197704個定義中,存在“part-whole”關系的定義只有12034個,其中和產品有關的,只有飛行器,船,車,電腦四種產品的285個定義,所以只依靠知網現(xiàn)有的“part-whole”的關系提供產品的組成信息可能遠遠不夠用戶的需求。
本文根據(jù)知網對世界萬物定義的七種類別,發(fā)現(xiàn)產品的部件概念詞不一定只存在具有“part-whole”關系的定義中,除了部件類以外,萬物類中也存在著大量的產品部件概念詞,所以本文將萬物類和部件類視為研究的對象,通過大量觀察產品部件概念詞在知網中的定義,發(fā)現(xiàn)產品部件概念詞集中分布在萬物類和部件類定義的詞中,本文設定部件、用具和機器這三個義原為部件特定首義原,驗證流程如圖2所示。
三、實驗設計與結果分析
1.實驗數(shù)據(jù)
本文訓練集采用的是120萬篇專利文章,數(shù)據(jù)規(guī)模為分詞后833M。本文分詞和詞性標注任務,使用的中科院分詞工具為ICTCALS。停用詞表使用的是“哈工大停用詞詞庫”。開發(fā)集是在10種不同類產品(不包含測試集)相關的10000篇專利摘要。測試集是運輸交通設備、通訊電子設備、儀器儀表和機械器材四類產品相關的2000篇專利摘 要,人工抽取每種產品中10個關鍵的產品組成部件概念詞作為所要抽取的目標詞。
2.實驗步驟
本文的實驗數(shù)據(jù)是相關產品的專利摘要,為了得到更好抽取結果,首先是對訓練語料進行預處理,包括分詞、詞性標注和去停用詞。根據(jù)詞頻由高到低的排序,過濾掉低于閾值的候選詞,本文通過10種產品設定不同閾值的對比實驗,實驗數(shù)據(jù)(如表1所示)表示的是每種產品在設定不同的過濾詞頻閾值時,候選詞中出現(xiàn)人工抽取目標詞的個數(shù),發(fā)現(xiàn)閾值設定為4%時,確保目標詞全部出現(xiàn)在候選詞中。
通過詞頻剪枝得到的候選詞,作為Word Embedding的輸入,本文通過10種產品設定不同相似度閾值的對比試驗,實驗數(shù)據(jù)(如表2所示)表示的是每種產品在設定不同的相似度閾值時,目標詞占候選詞的比例,發(fā)現(xiàn)相似度閾值設定為0.2時,目標詞占候選詞的比例較高。
3.結果分析
本文通過三個指標評價實驗的性能,分別是準確率(3-1)、召回率(3-2)、綜合指標F-值(3-3),如下式所示。
本文選擇的baseline是湯青[15]采用的一種統(tǒng)計的部件抽取方法,主要根據(jù)產品部件具有的領域聚合特征,在某一領域中詞頻較高或只出現(xiàn)在某個領域中,而在不相關領域中詞頻相對較低,除此之外還考慮了詞性特征。本文采用的統(tǒng)計和知識相結合的抽取方法與baseline方法進行比較,抽取結果平均準確率、召回率和F-值分別提高了3.1%、4.5%和3.7%,實驗結果如表3所示。
結束語
本文提出了一種基于統(tǒng)計和知識相結合的產品部件信息自動抽取方法,首先通過對產品專利摘要進行預處理,過濾掉非名詞詞性的和單字的干擾詞;然后通過詞頻剪枝和使用Bi-LSTM模型高效準確的將詞進行分布式表示,獲取與產品相關的候選詞;最后采用基于知識的方法,利用知網知識庫對候選詞定義的首義原進行驗證,準確高效的抽取了候選詞中的產品組成部件概念詞。本文通過結合統(tǒng)計和知識的方法,既滿足了抽取的相關性,又確保了抽取的完整性。通過考察實驗的準確率、召回率以及F-值發(fā)現(xiàn),表明實驗方法具有實用價值。
參考文獻(Reference)
[1]樊夢佳,段東圣,杜翠蘭等. 統(tǒng)計與規(guī)則相融合的領域術語抽取算法[J].計算機應用研究.2016,33(8):2282-2285.
[2]Sui Z, Chen Y, Wei Z. Automatic recognition of Chinese scientific and technological terms using integrated linguistic knowledge[C]//Proc of International Conference on Natural Language Processing and Knowledge Engineering. 2003: 444-451.
[3]劉劍, 唐慧豐, 劉伍穎. 一種基于統(tǒng)計技術的中文術語抽取方法[J].中國科技術語, 2014, 5(2): 10-14.
[4]吳海燕. 基于互信息與詞語共現(xiàn)的領域術語自動抽取方法研究[J].重慶郵電大學學報: 自然科學版, 2013, 25(5): 690-694.
[5]閆琪琪, 張海軍. 中文領域術語自動抽取方法進展研究[J].電腦知識與技術:學術交流, 2014, 21(10): 6716-6718.
[6]胡阿沛,張靜,劉俊麗. 基于改進 C-value 方法的中文術語抽取[J].現(xiàn)代圖書情報技術, 2013, 29(2): 24-29.
[7]李麗雙, 黨延忠, 張婧, 等. 基于條件隨機場的汽車領域術語抽取[J].大連理工大學學報, 2013, 53(2): 267-272.
[8]何琳. 基于多策略的領域本體術語抽取研究[J].情報學報,2012,31(8): 798-804.
[9]李麗雙. 領域本體學習中術語及關系抽取方法的研究[D].大連:大連理工大學, 2013.
[10]熊李艷, 譚龍, 鐘茂生. 基于有效詞頻的改進 C-value 自動術語抽取方法[J].現(xiàn)代圖書情報技術, 2013, 29(9): 54-59.
[11]Geoffrey E.Hinton. Learning distributed representations of concepts[R]. IEEE Transactions on Knowledge & Data Engineering,2001,13(2):232-44
[12]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural computation,1997,9(8)
1735-1780.
[13]孫茂松,陳新雄.借重于人工知識庫的詞和義項的向量表示:以知網為例[J].中文信息學報, 2016, 30(6):1-6.
[14]董振東,董強,郝長伶. 知網的理論發(fā)現(xiàn)[J], 中文信息學報. 2007, 21(4):3-9.
[15]湯青,呂學強,李卓. 領域本體術語抽取研究[J]. 現(xiàn)代圖書情報技術. 2014, 30(1) :43-50.