楊雙龍,呂學強,李卓,徐麗萍
(1.北京信息科技大學 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室,北京 100101;2. 北京城市系統(tǒng)工程研究中心,北京 100089)
中文專利文獻術(shù)語自動識別研究
楊雙龍1,呂學強1,李卓1,徐麗萍2
(1.北京信息科技大學 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室,北京 100101;2. 北京城市系統(tǒng)工程研究中心,北京 100089)
中文專利文獻中含有大量領(lǐng)域術(shù)語,對這些術(shù)語進行自動識別是信息抽取、文本挖掘等領(lǐng)域的重要任務(wù)。該文提出了基于專利文獻標題的術(shù)語詞性規(guī)則自動生成方法以及針對候選術(shù)語排序的TermRank算法。該方法首先從大量的中文專利文獻標題中自動生成詞性規(guī)則;然后利用生成的詞性規(guī)則對中文專利文獻正文部分進行規(guī)則匹配獲得候選術(shù)語表;再利用提出的TermRank排序算法對候選術(shù)語表排序,最終得到術(shù)語列表。通過在9 725篇中文專利文獻數(shù)據(jù)上實驗,證實了該方法的有效性。
術(shù)語自動識別;專利文獻;信息抽??;文本挖掘
自動術(shù)語識別(Automatic Term Recognition,ATR)是信息抽取研究領(lǐng)域的重要組成部分。它是指通過無人工干預(yù)或盡量少的人工干預(yù)方法,從自由文本中自動識別出能夠代表某個專業(yè)領(lǐng)域中一般概念的詞匯串的過程。通過術(shù)語自動識別技術(shù)構(gòu)建的術(shù)語庫是非常重要的基礎(chǔ)數(shù)據(jù)資源,為中文分詞、本體構(gòu)建、詞典編撰與更新、自動標引、信息檢索以及機器翻譯等提供不可或缺的數(shù)據(jù)支持。此外,伴隨著信息技術(shù)的高速發(fā)展,數(shù)字化信息資源與日俱增,對這些資源進行術(shù)語的自動識別對于及時把握領(lǐng)域最新發(fā)展狀況及未來發(fā)展趨勢具有十分重要的意義。
中文專利文獻是重要的數(shù)字化信息資源,它們記載著各學科領(lǐng)域的最新發(fā)明成果,其中存在著大量的專業(yè)術(shù)語。結(jié)合對中文專利文獻的觀察分析與前人[1-2]的研究,發(fā)現(xiàn)專利文獻中的術(shù)語具有如下幾個明顯特點: (1)專利文獻中的術(shù)語嵌套現(xiàn)象較為常見; (2)專利文獻中的術(shù)語具有較強的領(lǐng)域相關(guān)性,即高頻率出現(xiàn)在某一領(lǐng)域的術(shù)語在另外的領(lǐng)域中低頻出現(xiàn)甚至不出現(xiàn); (3)專利文獻中的術(shù)語具有重復(fù)出現(xiàn)的特點,即術(shù)語在整個專利文獻集中的多篇文獻中出現(xiàn); (4)專利術(shù)語長度較長,通常由2—5詞構(gòu)成; (5)專利術(shù)語大多是由名詞或復(fù)合名詞構(gòu)成。以上術(shù)語的特點是對中文專利文獻進行術(shù)語自動識別的重要依據(jù)。
本文針對中文專利文獻中術(shù)語的特點,結(jié)合目前主流的術(shù)語自動識別方法,提出了基于專利標題的詞性規(guī)則自動生成方法,利用這些規(guī)則再從專利文獻中匹配出候選術(shù)語。根據(jù)得到的候選術(shù)語,提出TermRank方法對其進行排序,并確定最終術(shù)語表。
目前,國內(nèi)外研究者在術(shù)語自動識別研究領(lǐng)域,通常采用兩種不同的研究方法。第一種為傳統(tǒng)的規(guī)則與統(tǒng)計相結(jié)合的術(shù)語識別方法。在生成候選術(shù)語集的過程中,先對中文文本進行分詞和詞性標注處理。通過觀察標注好的語料總結(jié)出構(gòu)成術(shù)語的詞性規(guī)則集,利用這些詞性規(guī)則在語料中匹配生成候選術(shù)語集。Frantzi[3]、Dagan[4]等人通過觀察總結(jié)了各自的詞性規(guī)則,如表1所示。
依靠人工編寫詞性規(guī)則的方式雖然識別精度較高,但對編寫者的語言學知識依賴性太大,不同人對同一個語料編寫的詞性規(guī)則并不一致。Yang[5]等人采用去除句子中功能詞的辦法,對句子進行粗切分得到候選術(shù)語集。閆興龍[6]等人對語料中的句子進行切分,得到候選多字集合,并將其作為下一步過濾算法的輸入。雖然在得到候選術(shù)語階段這些方法不需要利用詞性規(guī)則,但是在對句子進行粗切分時對外部的資源依賴性太大,外部資源的質(zhì)量往往決定了得到的候選術(shù)語集的質(zhì)量。索紅光[7]等人將文本通過先組織成詞匯鏈,再結(jié)合詞頻、區(qū)域特征等抽取關(guān)鍵詞,該方法在召回率和準確率方面均有所提高,但是受到知識庫質(zhì)量以及分詞準確率的很大限制。
在對候選術(shù)語集進行排序方面,國內(nèi)外許多研究者提出了不同的排序算法。其中貢獻最大的是由Frantzi提出的C-value/NC-value[3]算法,它們對于識別詞串較長的術(shù)語取得了較好的效果。但是,C-value/NC-value對于識別長度較短的術(shù)語或者出現(xiàn)頻率較低的術(shù)語并不太理想。因此,許多研究者提出了不同的基于C-value改進方法[8-9],改進后的方法在一定程度上比原始C-value更具優(yōu)勢。徐川[10]等人通過計算候選詞串間的結(jié)合強度,在中文專利文獻中識別術(shù)語的平均正確率達到80.24%,但也存在一定的誤識別率。楊潔[12]等人提出ATF×PDF的術(shù)語權(quán)重計算方法,該方法綜合考慮了詞頻、詞性以及詞語之間語義相似性等信息,取得了一定的實驗效果,但是對分詞效果和外部資源依賴較大。目前,術(shù)語自動識別研究領(lǐng)域的主流趨勢是對多種排序方法的融合[11-12],融合后的方法具有一定的識別效果。
第二種識別術(shù)語的方法是采用近年來在信息抽取領(lǐng)域逐漸趨于研究熱點的機器學習算法。Fethi選擇淺層語言學知識作為CRF機器學習模型的特征,在醫(yī)學領(lǐng)域語料庫上進行術(shù)語自動識別研究。賈美英[13]等選擇了詞本身、詞性、左右信息熵、互信息、TF/IDF等特征,利用CRF機器學習算法對軍事情報領(lǐng)域進行術(shù)語自動識別研究,證明了CRF的有效性。機器學習算法雖然綜合利用了較多的語言學知識和統(tǒng)計學參數(shù),較之傳統(tǒng)方法具有其獨特優(yōu)勢,但是對訓練語料的規(guī)模和質(zhì)量要求較高,并且需要人工標注大量數(shù)據(jù),語料的訓練也需要花費較長的時間。
本文提出的方法屬于以上第一種方法的范疇,但是所用到的語言學詞性規(guī)則并不是通過人工編寫,而是通過對專利標題中的術(shù)語進行統(tǒng)計自動生成。此外,針對目前主流的候選術(shù)語排序算法對長度較短術(shù)語識別不理想的缺點,提出對長術(shù)語和短術(shù)語都適用的TermRank排序算法。
傳統(tǒng)的術(shù)語識別方法在對文本進行分詞和詞性標記預(yù)處理后,研究者利用人工總結(jié)的詞性規(guī)則進行候選術(shù)語的抽取。為了避免人工總結(jié)詞性規(guī)則不完備,本文提出一種能夠從專利文獻標題中自動生成術(shù)語詞性規(guī)則方法。
3.1 基于專利標題的詞性規(guī)則自動生成
專利文獻一般是對發(fā)明、實用新型、外觀設(shè)計的記載,其標題是對整個文獻的高度概括,因此往往會直接給出所要描述的對象。
觀察發(fā)現(xiàn),專利文獻的標題中都至少包含一個正確術(shù)語。表2列舉了幾篇經(jīng)ICTCLAS[14]分詞及詞性標注處理后的專利標題以及其中所包含的術(shù)語。
表2 專利文獻標題所含術(shù)語舉例
根據(jù)中文專利標題的以上特點,將標題形式化地表示成如圖1所示。
圖1 中文專利標題形式化表示
其中,wi(i=1,2,…n) 表示專利標題被ICTCLAS切分出的詞,w1…wa,wc…wd以及wf…wn為標題中的術(shù)語,分別表示為CT1CT2CT3 ;wb和we是不屬于任何術(shù)語構(gòu)成部分的詞,本文稱其為停用詞,其構(gòu)建方法在3.2節(jié)介紹。
以停用詞ST1ST2 為分隔符,將子串CT1CT2CT3 的詞性規(guī)則提取出,即可作為下一步生成候選術(shù)語的詞性規(guī)則。例如,專利標題: “一/m種/q電動/b汽車/n的/ude1 電量/n顯示器/n裝置/n”中包含術(shù)語: “電動/b汽車/n”、“電量/n顯示器/n”。提取出它們的詞性規(guī)則: “b+n”、“n+n”,并將它們添加至詞性規(guī)則集中,作為下一步生成候選術(shù)語的詞性規(guī)則。
3.2 停用詞表構(gòu)建
3.1節(jié)提到的停用詞是從專利標題中自動生成詞性規(guī)則的重要資源。本文選擇手工構(gòu)建停用詞表,而不是直接采用現(xiàn)成的通用停用詞表,是因為現(xiàn)成的通用停用詞表內(nèi)的某些停用詞在專利文獻中有可能是術(shù)語的組成部分。例如,“排/v”在通用停用詞表中存在,但在“全自動/b排/v紙/n機/ng”中,它又是構(gòu)成術(shù)語的一部分,因此不能將其加入停用詞表。類似“排/v”這類在通用停用詞表中存在,但在中文專利文獻中又是構(gòu)成術(shù)語的部分的詞在語料中大量存在。
本文構(gòu)建的停用詞表中的停用詞來源于以下三個方法。方法一: 對專利標題分詞后進行詞頻統(tǒng)計,將出現(xiàn)頻率高于20的停用詞加入停用詞表;方法二: 將明顯不會出現(xiàn)在術(shù)語中的詞性加入停用詞表,如/vyou、/m、/wkz、/ulr等詞性;方法三: 應(yīng)用方法一和方法二步驟生成的停用詞表對標題進行過濾后,對剩余詞串進行人工觀察,若再發(fā)現(xiàn)新的停用詞,也將其加入到停用詞表中。
3.3 候選術(shù)語的生成
對生成的詞性規(guī)則按照所含詞性的個數(shù)進行分類。由于本文中只識別2—5詞術(shù)語,故將詞性規(guī)則分為四類: 2—5詞詞性規(guī)則。自動生成的詞性規(guī)則數(shù)量較多,無法將它們?nèi)繎?yīng)用到文獻中進行術(shù)語匹配,因此需要有選擇地從中挑選出部分詞性規(guī)則。本文對每一類詞性規(guī)則按照出現(xiàn)頻率降序排列,并只取Top5條規(guī)則應(yīng)用到中文專利文獻的正文部分①進行詞性匹配,即可生成候選術(shù)語集合。
抽取出的候選術(shù)語也按照所包含詞的個數(shù)進行分類,即分類為: 2—5詞候選術(shù)語。這樣分類的目的是為了讓每一類長度的術(shù)語都單獨構(gòu)成一張候選術(shù)語表,在對其利用第四節(jié)中的排序算法進行排序時能夠不受其他長度的術(shù)語的影響,從而排序結(jié)果更公平。
對候選術(shù)語排序的目的是為了確定最終術(shù)語表。一個好的排序算法能夠?qū)⒑蜻x術(shù)語列表中分散的正確或錯誤的術(shù)語重新排序,使正確的術(shù)語的權(quán)重增大,排名位置盡量靠前,反之亦然。
本文提出的TermRank算法是受Page和Brin提出的PageRank[15]算法思想啟發(fā)。PageRank在Web信息檢索領(lǐng)域應(yīng)用廣泛且效果顯著。Page-Rank的核心思想是: 若有多個網(wǎng)頁鏈向某一網(wǎng)頁,則表明該網(wǎng)頁質(zhì)量較高,故其PageRank值也高;而某一網(wǎng)頁的PageRank值被其外鏈數(shù)平均分配給它所鏈向的網(wǎng)頁。
統(tǒng)計發(fā)現(xiàn),中文專利文獻中也存在類似情況: 若某候選術(shù)語來自多篇專利文獻,則該候選術(shù)語是真正術(shù)語的可能性也越大。例如,“編程/vn控制器
/n”在163篇專利文獻中出現(xiàn),“液晶/n顯示器/n”在331篇專利文獻中出現(xiàn)。如此高文檔頻率出現(xiàn)表明它們并非偶然出現(xiàn)。
但是也存在并不是正確術(shù)語的候選術(shù)語在多篇文獻中出現(xiàn)。例如,“傳感器/n包括/v”出現(xiàn)在472篇文獻中,但它并不是一個正確術(shù)語。通過對此類非術(shù)語的候選術(shù)語分析,發(fā)現(xiàn)其中通常包含一個或多個停用詞。因此,當發(fā)現(xiàn)候選術(shù)語中存在停用詞時,應(yīng)該降低其排序權(quán)重?;谝陨辖y(tǒng)計和分析,提出針對中文專利候選術(shù)語的TermRank排序算法,如式(1)所示。
通過分析式(1)發(fā)現(xiàn),第一項和第二項并不一定在同一數(shù)量級上,當M值較大或者較小時,對候選術(shù)語的TermRank值影響并不大,因此需要對它們分別進行歸一化處理。本文選擇線性變換歸一化方法,對其中第一、第二項歸一化,公式分別如式(2)和式(3)所示。
(2)
(3)
由式(1)可知,候選術(shù)語Ti的TermRank不僅被出現(xiàn)在多篇專利文獻中這一現(xiàn)象增強,而且還被它在該專利文獻中的詞頻增強。即,若某候選術(shù)語在某篇專利文獻中出現(xiàn)頻率越高,則該候選術(shù)語越有可能是正確術(shù)語。候選術(shù)語Ti的TermRank被其中出現(xiàn)的停用詞所抑制,且若其中出現(xiàn)的停用詞數(shù)量越多,則抑制作用越明顯。對候選術(shù)語列表中的每一個候選術(shù)語都按照以上公式計算其TermRank值,經(jīng)排序后,取Top-N條作為最終術(shù)語表。
5.1 實驗設(shè)計
本文實驗數(shù)據(jù)由國內(nèi)某專利公司提供,共有9 725篇專利文獻。去除其中的表格和圖片,保存為純文本后的語料大小為123M。采用ICTCLAS對專利文獻進行分詞及詞性標注處理。詞性標注采用中科院計算所二級詞性標注集,可參見《ICTPOS3.0
① 中文專利文獻通常由以下幾部分組成: 專利標題、技術(shù)領(lǐng)域、背景技術(shù)、發(fā)明內(nèi)容、附圖說明、具體實施方式。本文認為除“專利標題”外,其余部分皆屬于專利文獻正文。
漢語詞性標記集》*http://ictclas.org/news_ictclas_files.html。
采用3.2節(jié)介紹的構(gòu)建停用詞表方法,最后構(gòu)建的停用詞表中包含停用詞共246個。表3列出了其中部分停用詞。
表3 人工構(gòu)建的停用詞表中部分停用詞
5.2 評價方法
采用人工方式對實驗結(jié)果進行判斷。為避免人的主觀性和領(lǐng)域知識的局限性,對于明顯正確或錯誤的術(shù)語直接標記相應(yīng)標記,而對于很難辨別正確性的候選術(shù)語則利用Google搜索引擎進行判斷。只要符合以下情況的任何一條,則將該候選術(shù)語標記為正確術(shù)語,否則標記為錯誤術(shù)語: 1)在Wikipedia、百度百科、互動百科等知識網(wǎng)站存在對應(yīng)詞條;2)在專利檢索系統(tǒng)存在此詞條;3)Google搜索引擎未對候選術(shù)語中任何成分進行過濾或打亂次序等處理。
由于實驗結(jié)果集太大,難以對整個排序后的列表進行整體評估,因此采用P@N評價方法,即判斷最終術(shù)語表中前N條的準確率(Precision),其計算公式如式(4)所示。
(4)
5.3 實驗結(jié)果及分析
利用3.1節(jié)所述自動生成詞性規(guī)則方法,從專利文獻標題中共生成2 832條無重復(fù)詞性規(guī)則。表4列出按照頻率排序后的Top5條。該統(tǒng)計結(jié)果從實驗數(shù)據(jù)上驗證了大部分術(shù)語是由名詞或復(fù)合名詞構(gòu)成的特點。
表4 自動生成詞性規(guī)則Top 5條舉例
續(xù)表
表5是對詞性規(guī)則按照不同長度分類后,其出現(xiàn)頻次所占總頻次(2 832)百分比的統(tǒng)計信息。其中長度為4和5的詞性規(guī)則共占71.5%,驗證了專利文獻中術(shù)語長度偏長的特點。
表5 不同長度的詞性規(guī)則比例
這種通過從專利文獻的標題中自動總結(jié)詞性規(guī)則的方法相對于傳統(tǒng)的詞性規(guī)則生成方法,具有以下兩方面的優(yōu)勢: 1)大幅度減少冗余信息: 相對于從專利正文總結(jié)詞性規(guī)則,從標題中總結(jié)詞性將大幅度減少冗余的詞性規(guī)則;2)對分詞和詞性標注工具的精度依賴減小: 不管標題中的術(shù)語被正確地或錯誤地分詞和詞頻標注,它的詞性規(guī)則模式都將被加入詞性規(guī)則集中。在抽取候選術(shù)語時,若候選術(shù)語被錯誤切分和標注,也將被抽取出。
由于自動生成的詞性規(guī)則較多,將所有規(guī)則都應(yīng)用到專利文獻中抽取候選術(shù)語并不必要。因此對于每一類長度的詞性規(guī)則,按照出現(xiàn)頻次的高低,只取Top 5條。表6是不同長度詞性規(guī)則的Top 5條。
應(yīng)用表6中列出的詞性規(guī)則,再對專利文獻正文進行抽取。抽取出2詞候選術(shù)語493 286條;3詞候選術(shù)語152 274條;4詞候選術(shù)語31 809條;5詞候選術(shù)語3 966條。表7是抽取出的部分候選術(shù)語及對應(yīng)匹配的詞性規(guī)則。
利用詞性規(guī)則抽取出的候選術(shù)語質(zhì)量較高,但也存在部分噪音。例如,候選術(shù)語“結(jié)合/v 附圖/n”雖然匹配“V+N”詞性規(guī)則,但本身并不是真正術(shù)語;候選術(shù)語“位移/v 傳感器/n”中的“位移”的詞性應(yīng)該為n,“語音/n 式微/v 型/k 乳腺/n 檢查儀/n”正確的分詞和詞性標注應(yīng)該為“語音/n 式/k 微型/a 乳腺/n 檢查儀/n”。雖然這些詞串被錯誤地分詞或詞性標注,但本身仍然為術(shù)語,且被正確地識別出來,這正是本文所采用的自動生成詞性規(guī)則的優(yōu)勢之處,即對分詞和詞性標注的精度依賴性較小。
表6 不同長度詞性規(guī)則Top5條
表7 部分候選術(shù)語及匹配的詞性規(guī)則
將候選術(shù)語按照不同詞長劃分到不同候選術(shù)語表中,由于本文只識別長度為2—5詞術(shù)語,因此得到四張候選術(shù)語表。對候選術(shù)語的排序是在每一張候選術(shù)語表上單獨進行,是為了避免由于某類長度的候選術(shù)語識別較多從而對整體排序造成不公正的現(xiàn)象出現(xiàn)。為了驗證本文提出的TermRank方法的有效性,選取TF和C-Value作為對比方法。表8為對最終候選術(shù)語排序結(jié)果采用P@N評價方法的統(tǒng)計信息,其中N依次取值100,200,400,800,1 000。
表8 對候選術(shù)語排序結(jié)果的P@N評價
續(xù)表
由表8中的實驗結(jié)果可以看出,本文提出的TermRank方法對不同長度的候選術(shù)語排序效果都顯著優(yōu)于其他兩種排序方法。在P@1000上,Term-Rank 方法對3詞長度術(shù)語的識別正確率均達到80%以上。從P@100~P@1000上的正確率逐漸遞減的規(guī)律也印證了TermRank具有較好地將術(shù)語和非術(shù)語區(qū)分開的能力。
術(shù)語自動識別研究是信息抽取和文本挖掘等領(lǐng)域的重要研究課題。本文首先利用統(tǒng)計學方法從專利標題中自動學習出構(gòu)成術(shù)語的詞性規(guī)則,解決了人工總結(jié)術(shù)語詞性規(guī)則的不足。對候選術(shù)語集的排序算法的優(yōu)劣反應(yīng)在最終識別出的術(shù)語的質(zhì)量上,本文提出的TermRank排序方法綜合考慮了專利文獻中語言學和統(tǒng)計學特征,能夠較好的區(qū)分術(shù)語和非術(shù)語,在P@1000級別上的準確率驗證了其較高的可靠性。文中對每一類長度的詞性規(guī)則模板依據(jù)統(tǒng)計頻率選取Top5條的方式,存在一定的局限性。因此,在下一步的研究工作中,需要設(shè)計出一種更好的選取詞性模板策略,進一步提高自動識別術(shù)語的效果。
致謝
感謝中國科學院計算技術(shù)研究所提供的ICTCLAS分詞及詞性標注工具,讓本文實驗得以順利完成。
[1] 游宏梁,張巍,沈鈞毅,等. 一種基于加權(quán)投票的術(shù)語自動識別方法[J]. 中文信息學報,2011,25(3): 9-16.
[2] 岳金媛,徐金安,張玉潔等.面向?qū)@墨I的漢語分詞技術(shù)研究[J]. 北京大學學報(自然科學版),2013,49(1):159-164.
[3] Frantzi K,Ananiadou S,Mima H. Automatic recognition of multi-word terms: the C-value/NC-value method[J]. International Journal on Digital Libraries,2000,3(2): 115-130.
[4] Dagan I,Church K. Termight: Identifying and translating technical terminology[C]//Proceedings of the fourth conference on Applied natural language processing. Association for Computational Linguistics,1994: 34-40.
[5] Yang Y,Lu Q,Zhao T. Chinese term extraction using minimal resources[C]//Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1. Association for Computational Linguistics,2008: 1033-1040.
[6] 閆興龍,劉奕群,方奇等.基于網(wǎng)絡(luò)資源與用戶行為信息的領(lǐng)域術(shù)語提取[J].軟件學報,2013,24(9): 2089-2100.
[7] 索紅光,劉玉樹,曹淑英. 一種基于詞匯鏈的關(guān)鍵詞抽取方法[J]. 中文信息學報,2006,20(6): 25-30.
[8] 李超,王會珍,朱慕華,等. 基于領(lǐng)域類別信息 C-value 的多詞串自動抽取[J]. 中文信息學報,2010,24(1): 94-98.
[9] 韓紅旗,朱東華,汪雪鋒. 專利技術(shù)術(shù)語的抽取方法[J]. 情報學報,2011,30(12): 1280-1285.
[10] 徐川,施水才,房祥等.中文專利文獻術(shù)語抽取[J].計算機工程與設(shè)計,2013,34(6): 2175-2179.
[11] 楊潔,季鐸,蔡東風,等. 基于聯(lián)合權(quán)重的多文檔關(guān)鍵詞抽取技術(shù)[J]. 中文信息學報,2008,22(6): 75-79.
[12] 梁穎紅,張文靜,周德富. 基于混合策略的高精度長術(shù)語自動抽取[J]. 中文信息學報,2009,23(6): 26-30.
[13] 賈美英,楊炳儒,鄭德權(quán),等. 采用 CRF 技術(shù)的軍事情報術(shù)語自動抽取研究[J]. 計算機工程與應(yīng)用,2009,45(32): 126-129.
[14] Zhang H P,Yu H K,Xiong D Y,et al. HHMM-based Chinese lexical analyzer ICTCLAS[C]//Proceedings of the second SIGHAN workshop on Chinese language processing-Volume 17. Association for Computational Linguistics,2003: 184-187.
[15] Brin S,Page L. The anatomy of a large-scale hypertextual Web search engine[J]. Computer networks and ISDN systems,1998,30(1): 107-117.
Automatic Recognition of Terms in Chinese Patent Literature
YANG Shuanglong1,LV Xueqiang1,LI Zhuo1,XU Liping2
(1. Beijing Key Laboratory of Internet Culture and Digital Dissemination Research,Beijing Information Science and Technology University,Beijing 100101,China;2.Beijing Research Center of Urban System Engineering,Beijing 100089,China)
Chinese patent literatures contain abundant domain-specific terms, and automatic recognition of terminology is an important task in information extraction and text mining. In this paper, we propose an approach of automatic generation of term formation rules and a novel TermRank algorithm. Firstly, we focus on generating a set of term formation rules automatically through a large number of patent titles and then applied those rules to patent texts for term candidates. Finally, the TermRank algorithm decides the final terms. Experimental results on 9725 Chinese patent literatures demonstrate the effectiveness of the proposed approach.
automatic term recognition; patent literature; information extraction; text mining
楊雙龍(1989—),碩士研究生,主要研究領(lǐng)域為中文信息處理、網(wǎng)絡(luò)數(shù)據(jù)挖掘。E?mail:yslgoodboy@gmail.com呂學強(1970—),博士,教授,主要研究領(lǐng)域為中文信息處理、多媒體信息處理。E?mial:lxq@bistu.edu.cn李卓(1983—),博士,講師,主要研究領(lǐng)域為分布式計算,社交網(wǎng)絡(luò)。E?mial:lizhuo@bistu.edu.cn
2014-03-20 定稿日期: 2014-05-16
所屬課題: 國家自然科學基金(61271304);北京市教委科技發(fā)展計劃重點項目暨北京市自然科學基金B(yǎng)類重點項目(KZ201311232037);北京市屬高等學校創(chuàng)新團隊建設(shè)與教師職業(yè)發(fā)展計劃項目(IDHT20130519)
1003-0077(2016)03-0111-07