亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種面向?qū)＠念I(lǐng)域術(shù)語(yǔ)抽取方法

2016-09-26 07:31:00呂學(xué)強(qiáng)

計(jì)算機(jī)應(yīng)用與軟件 2016年3期

關(guān)鍵詞：術(shù)語(yǔ)語(yǔ)料詞典

曾　鎮(zhèn)　呂學(xué)強(qiáng)　李　卓

(北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室　北京 100101)

一種面向?qū)＠念I(lǐng)域術(shù)語(yǔ)抽取方法

曾鎮(zhèn)呂學(xué)強(qiáng)李卓

(北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室北京 100101)

專利領(lǐng)域中術(shù)語(yǔ)抽取結(jié)果的好壞決定了本體構(gòu)建的質(zhì)量。提出一種自動(dòng)生成過(guò)濾詞典并結(jié)合詞匯密集度等影響因子的術(shù)語(yǔ)抽取方法。首先在分詞和詞性標(biāo)注的基礎(chǔ)上，對(duì)文獻(xiàn)匹配詞性規(guī)則算法生成的模板得到候選長(zhǎng)術(shù)語(yǔ)和單詞型短術(shù)語(yǔ)集合，然后利用文檔一致度生成的過(guò)濾詞典過(guò)濾部分候選長(zhǎng)術(shù)語(yǔ)集，最后針對(duì)長(zhǎng)術(shù)語(yǔ)的構(gòu)成特點(diǎn)，將詞匯密集度、文檔差比、文檔一致度三個(gè)術(shù)語(yǔ)因子加權(quán)平均作為整個(gè)長(zhǎng)術(shù)語(yǔ)的術(shù)語(yǔ)權(quán)重值，并按值高低排序。在8000篇專利摘要文獻(xiàn)的基準(zhǔn)語(yǔ)料上進(jìn)行實(shí)驗(yàn)，隨機(jī)選取五組實(shí)驗(yàn)數(shù)據(jù)，平均準(zhǔn)確率達(dá)到86%。結(jié)果表明該方法在領(lǐng)域術(shù)語(yǔ)抽取方面是行之有效的。

領(lǐng)域術(shù)語(yǔ)本體構(gòu)建過(guò)濾詞典詞匯密集度

0　引　言

專利文獻(xiàn)作為技術(shù)信息的有效載體，涵蓋了全球90%以上的最新技術(shù)情報(bào)[1]。由于70%～80%的發(fā)明創(chuàng)造都只能通過(guò)專利文獻(xiàn)的形式發(fā)表，專利文獻(xiàn)本身蘊(yùn)含了巨大的信息價(jià)值。為了增強(qiáng)自身競(jìng)爭(zhēng)力，越來(lái)越多的企業(yè)也開始把目光投向了專利文獻(xiàn)，一方面通過(guò)專利申請(qǐng)來(lái)保障自己的發(fā)明成果，另一方面通過(guò)專利檢索了解同行的最新技術(shù)進(jìn)展情況，不斷學(xué)習(xí)，使自己在激烈的市場(chǎng)競(jìng)爭(zhēng)中保持不敗之地。因此對(duì)于專利信息部門，從專利文獻(xiàn)中抽取有效知識(shí)，構(gòu)建一個(gè)基于專利文獻(xiàn)的本體知識(shí)庫(kù)，為各企業(yè)、技術(shù)人員提供專利檢索和專利預(yù)警、專利分析的支持是一個(gè)迫切而又有意義的工作。

本體構(gòu)建的首要任務(wù)便是從專利文本中自動(dòng)抽取出概念術(shù)語(yǔ)，且獲得的術(shù)語(yǔ)準(zhǔn)確率的高低直接影響后續(xù)的本體框架。目前很多學(xué)者都開展了這方面的研究，總的來(lái)說(shuō)主要分為基于規(guī)則的方法、基于統(tǒng)計(jì)的方法以及兩者結(jié)合的方法。從總體效果方面來(lái)看，規(guī)則與統(tǒng)計(jì)結(jié)合的方法更占優(yōu)勢(shì)。韋小麗[2]等提出采用最大熵模型的機(jī)器學(xué)習(xí)算法來(lái)提取領(lǐng)域概念術(shù)語(yǔ)。施水才[3]等運(yùn)用條件隨機(jī)場(chǎng)模型來(lái)構(gòu)建合理的特征模板達(dá)到識(shí)別領(lǐng)域術(shù)語(yǔ)的效果。上述方法雖不依賴規(guī)則的制定、且可移植性較強(qiáng)，但需耗費(fèi)一定的人力來(lái)標(biāo)注訓(xùn)練語(yǔ)料，訓(xùn)練語(yǔ)料的規(guī)模也會(huì)最終影響到實(shí)驗(yàn)結(jié)果。文獻(xiàn)[4-7]使用了互信息、對(duì)數(shù)似然比和C-value這類統(tǒng)計(jì)量在大規(guī)模語(yǔ)料中抽取術(shù)語(yǔ)。該方法很難處理單篇文檔，且互信息容易錯(cuò)誤識(shí)別經(jīng)常搭配的非術(shù)語(yǔ)短語(yǔ)。劉豹[8]嘗試將統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法和規(guī)則結(jié)合起來(lái)抽取術(shù)語(yǔ)，雖取得了不錯(cuò)的效果，但缺乏對(duì)體現(xiàn)領(lǐng)域特點(diǎn)的長(zhǎng)術(shù)語(yǔ)的識(shí)別。湯青[9]采用基于術(shù)語(yǔ)部件庫(kù)的方法實(shí)現(xiàn)術(shù)語(yǔ)抽取，該方法對(duì)于部件庫(kù)的質(zhì)量有著嚴(yán)格的要求，不存在已知部件庫(kù)的術(shù)語(yǔ)很難被識(shí)別。徐川[10]分析字符串之間的結(jié)合強(qiáng)度，提出邊界結(jié)合度、串邊結(jié)合度等概念抽取術(shù)語(yǔ)，該方法不易識(shí)別缺乏固定搭配的術(shù)語(yǔ)。文獻(xiàn)[11]集成統(tǒng)計(jì)和規(guī)則的方法，能夠挖掘大規(guī)模新詞術(shù)語(yǔ)，但同時(shí)也引入大量如“供選擇”這類非術(shù)語(yǔ)固定搭配的噪音詞匯。

上述研究中所抽取出來(lái)的術(shù)語(yǔ)從嚴(yán)格意義上來(lái)講只能稱為短語(yǔ)，幾乎未能體現(xiàn)術(shù)語(yǔ)的領(lǐng)域特性。針對(duì)上述方法所存在的不足，該文提出一種首先利用詞性規(guī)則模板得到候選的單詞型短術(shù)語(yǔ)和多詞長(zhǎng)術(shù)語(yǔ)集合，然后計(jì)算詞匯密集度權(quán)重參數(shù)來(lái)抽取單詞型術(shù)語(yǔ)，最后結(jié)合平衡語(yǔ)料自動(dòng)生成一部過(guò)濾詞典，通過(guò)過(guò)濾詞典和組成該長(zhǎng)術(shù)語(yǔ)的每個(gè)詞的術(shù)語(yǔ)因子篩選出最終的長(zhǎng)術(shù)語(yǔ)的方法。過(guò)濾詞典由于利用領(lǐng)域一致度動(dòng)態(tài)生成，且較好的篩選掉部分非術(shù)語(yǔ)常用搭配噪音信息，能很好地跨領(lǐng)域移植。對(duì)構(gòu)成長(zhǎng)術(shù)語(yǔ)的原子詞語(yǔ)賦予其術(shù)語(yǔ)權(quán)重，加權(quán)平均其術(shù)語(yǔ)權(quán)重值，作為整個(gè)長(zhǎng)術(shù)語(yǔ)的術(shù)語(yǔ)度，最后按術(shù)語(yǔ)度對(duì)術(shù)語(yǔ)進(jìn)行排序。排名越靠前其成為術(shù)語(yǔ)的可能性越大，剩下的非術(shù)語(yǔ)常用搭配由于其組成詞語(yǔ)術(shù)語(yǔ)權(quán)重值均偏低，其排名偏靠后，這種隨可信度分布的術(shù)語(yǔ)詞表可以提供用戶更靈活的選擇。

1　詞性規(guī)則模板

1.1語(yǔ)料預(yù)處理

專利摘要作為對(duì)整個(gè)專利的介紹說(shuō)明，是整篇專利文檔核心內(nèi)容，蘊(yùn)含豐富的價(jià)值信息。其內(nèi)容一般涵蓋以下幾部分：對(duì)專利的用途介紹、專利的工作原理闡述、專利的創(chuàng)新改進(jìn)之處，專利的功效矩陣、以及專利的應(yīng)用領(lǐng)域。

對(duì)8 000篇新能源電動(dòng)汽車領(lǐng)域的專利摘要進(jìn)行分詞和詞性標(biāo)注的文檔預(yù)處理。分詞工具選用中科院自主開發(fā)的ICTCLAS，ICTCLAS運(yùn)用隱馬爾科夫模型進(jìn)行分詞，融合了實(shí)體識(shí)別、未登錄詞識(shí)別和詞性標(biāo)注等功能模塊，是市面上十分成熟的一個(gè)分詞軟件。

1.2詞性規(guī)則生成算法

術(shù)語(yǔ)按其組成長(zhǎng)度可劃分為單詞短術(shù)語(yǔ)和多詞長(zhǎng)術(shù)語(yǔ)[12]，單詞短術(shù)語(yǔ)由單個(gè)詞匯構(gòu)成，下文簡(jiǎn)稱短術(shù)語(yǔ)，多詞長(zhǎng)術(shù)語(yǔ)一般由2到6個(gè)詞組成。作為某個(gè)領(lǐng)域反復(fù)使用、形勢(shì)較為固定又表達(dá)某特定概念的詞語(yǔ)，術(shù)語(yǔ)的組成結(jié)構(gòu)一般具有詞性特點(diǎn)。單詞短術(shù)語(yǔ)一般為名詞n或動(dòng)名詞vn。多詞型長(zhǎng)術(shù)語(yǔ)的詞性規(guī)則比較復(fù)雜，常見的搭配有n+n、vn+n、b+v+n等。Sui在文獻(xiàn)[11]總結(jié)了2詞-6詞的術(shù)語(yǔ)構(gòu)詞規(guī)則。該規(guī)則比較寬松，對(duì)特定的領(lǐng)域語(yǔ)料并不十分實(shí)用。在大量研究專利文獻(xiàn)的基礎(chǔ)上，發(fā)現(xiàn)標(biāo)題多為體現(xiàn)該專利創(chuàng)新的領(lǐng)域特色的長(zhǎng)術(shù)語(yǔ)，且其嵌套詞組也多為術(shù)語(yǔ)?；谶@個(gè)現(xiàn)象，設(shè)計(jì)一個(gè)針對(duì)實(shí)驗(yàn)文獻(xiàn)自動(dòng)生成詞性規(guī)則的算法。算法流程如下所示：

輸入：標(biāo)題字符串集合T={T1,T2,…T8000}，TI=W1,W2,…,Wn(i=1,…,8000)

文本字符串集合D={D1,D2,…,DM}，Di=W1,W2,…,Wn(i=1,…,m)

文本字符串以標(biāo)點(diǎn)符號(hào)為分隔符，WI為詞性標(biāo)記

輸出：HashMap，其key為詞性規(guī)則WI，value為規(guī)則頻次

流程：for T1to T800

Begin

IF D包含TI|| D包含Ti的字串Sub(Ti)

IF Ti||Sub(Ti)不存在HashMap中

HashMap.add(Ti||Sub(Ti),1)

Else

從HashMap取得其對(duì)應(yīng)的value

HashMap.put(Ti||Sub(Ti),value++)

Repeat;

長(zhǎng)術(shù)語(yǔ)由于其詞匯繁多，結(jié)構(gòu)復(fù)雜成為術(shù)語(yǔ)抽取的一個(gè)難點(diǎn)。該算法從文獻(xiàn)的實(shí)際特點(diǎn)出發(fā)，其生成的長(zhǎng)術(shù)語(yǔ)的構(gòu)詞規(guī)則更符合其在整個(gè)文獻(xiàn)的實(shí)際頻次分布。在HashMap結(jié)果集中取出長(zhǎng)度為2到6且頻次為前三名的詞性規(guī)則，如表1所示。

表1　部分術(shù)語(yǔ)詞性構(gòu)詞規(guī)則

表1中，n表示名詞，vn表示動(dòng)名詞，v表示動(dòng)詞，m表示數(shù)詞，b表示區(qū)分詞，u表示助詞。將上述詞性規(guī)則作為模板在文獻(xiàn)里匹配得到候選多詞長(zhǎng)術(shù)語(yǔ)集。篩選出所有詞性標(biāo)注為名詞或動(dòng)名詞的詞語(yǔ)作為候選短術(shù)語(yǔ)集。本文的規(guī)則自動(dòng)生成算法解決了通用規(guī)則準(zhǔn)確性差和領(lǐng)域適應(yīng)性低的問(wèn)題。

2　過(guò)濾詞典

術(shù)語(yǔ)作為在專有學(xué)科領(lǐng)域內(nèi)具有高流通量的詞匯，其本身含有極強(qiáng)的專業(yè)性，且與日常生活領(lǐng)域交集甚少。某些明顯不含領(lǐng)域?qū)I(yè)信息，卻在日常生活常見的詞匯，如“我們”、“簡(jiǎn)單”、等，可以通過(guò)判斷候選術(shù)語(yǔ)是否包含它們篩選出非術(shù)語(yǔ)，從而實(shí)現(xiàn)最終的術(shù)語(yǔ)抽取。這里將其定義為過(guò)濾詞，好的過(guò)濾詞典能保證抽取術(shù)語(yǔ)質(zhì)量的好壞?，F(xiàn)有專利領(lǐng)域內(nèi)往往不存在專業(yè)的過(guò)濾詞典，一方面是詞典的構(gòu)建需要耗費(fèi)大量人力，另一方面詞典限制了其他領(lǐng)域的適應(yīng)性，不易移植，對(duì)外部資源依賴性大。本文借鑒領(lǐng)域一致度[13]用在平衡語(yǔ)料上，實(shí)現(xiàn)過(guò)濾詞典的自動(dòng)生成。

定義1領(lǐng)域文檔一致度是指某術(shù)語(yǔ)在不同領(lǐng)域類別的文檔分布一致情況。設(shè)有k個(gè)不同領(lǐng)域D={D1，D2,…,Dk}，每個(gè)領(lǐng)域的文檔數(shù)為{T1，T2,…,TK}。則候選術(shù)語(yǔ)t的領(lǐng)域文檔一致度定義為：

(1)

其中概率P(t,Dj)可用頻率估計(jì)：

(2)

其中，f(t,Dj)表示候選術(shù)語(yǔ)在領(lǐng)域Dj內(nèi)出現(xiàn)的文檔數(shù)。當(dāng)候選術(shù)語(yǔ)t在平衡語(yǔ)料各個(gè)領(lǐng)域內(nèi)出現(xiàn)的文檔分布越均勻時(shí)，其文檔一致度H(t)也就越大，說(shuō)明其很大可能上是過(guò)濾詞。專業(yè)的術(shù)語(yǔ)在其他領(lǐng)域內(nèi)并不流通、很少甚至不出現(xiàn)，其分布極不平衡，故其領(lǐng)域文檔一致度偏小。依據(jù)式(1)和平衡語(yǔ)料能自動(dòng)生成一部過(guò)濾詞典，借助過(guò)濾詞典能從候選術(shù)語(yǔ)集篩選出大部分明顯不是術(shù)語(yǔ)的詞組。部分過(guò)濾詞如表2所示。

表2　部分過(guò)濾詞

3　詞匯密集度和文檔差比

觀察專利文檔發(fā)現(xiàn)，術(shù)語(yǔ)對(duì)領(lǐng)域依賴性較強(qiáng)，作為領(lǐng)域核心知識(shí)的載體，同一術(shù)語(yǔ)往往會(huì)在單篇文檔內(nèi)被反復(fù)提到?；谝陨弦?guī)律，提出詞匯密集度的概念。

定義2候選術(shù)語(yǔ)t在單篇文檔的平均詞頻表示t在領(lǐng)域文檔內(nèi)的密集程度。術(shù)語(yǔ)t的密集程度可以用公式表示為：

(3)

其中，tf(t)表示術(shù)語(yǔ)t在整個(gè)領(lǐng)域內(nèi)的出現(xiàn)頻次，df(t)表示術(shù)語(yǔ)t在領(lǐng)域內(nèi)出現(xiàn)的文檔數(shù)。術(shù)語(yǔ)的密集度并不能有效區(qū)分一些不屬于本領(lǐng)域的基礎(chǔ)術(shù)語(yǔ)和常用詞匯。如“化合物”、“微生物”等詞已延伸到各個(gè)學(xué)術(shù)、生活領(lǐng)域中。通過(guò)候選術(shù)語(yǔ)的在領(lǐng)域文檔和平衡文檔的文檔差比來(lái)加權(quán)平均，定義一個(gè)綜合指標(biāo)來(lái)篩選單詞集中的單詞短術(shù)語(yǔ)。

(4)

其中，DF、PF分別表示領(lǐng)域文檔總數(shù)和平衡文檔總數(shù)，權(quán)重α和β表示詞匯密集度和文檔差比各自的貢獻(xiàn)度。df(t)和pf(t)指示候選術(shù)語(yǔ)t在領(lǐng)域文檔的文檔頻次和平衡文檔的文檔頻次。當(dāng)候選術(shù)語(yǔ)t的詞匯密集度較大時(shí)，t可能為領(lǐng)域術(shù)語(yǔ)，但也將日常用語(yǔ)如“感覺(jué)”、“意識(shí)”、“結(jié)果”等錯(cuò)選為領(lǐng)域術(shù)語(yǔ)。但該類詞語(yǔ)在其他領(lǐng)域也應(yīng)用廣泛，即其領(lǐng)域文檔差比值教小，真正的領(lǐng)域術(shù)語(yǔ)存在在本領(lǐng)域密集分布，平衡領(lǐng)域鮮有出現(xiàn)的現(xiàn)象，最終使得其綜合指標(biāo)D(t)值偏大，而達(dá)到過(guò)濾單詞術(shù)語(yǔ)的效果。

一般而言，人們所掌握的詞匯是有限的，如果在構(gòu)建專業(yè)術(shù)語(yǔ)時(shí)大量引入新的詞匯，會(huì)阻礙技術(shù)之間的交流和知識(shí)的普及。這就出現(xiàn)了頻繁使用已有單詞來(lái)構(gòu)成新的術(shù)語(yǔ)的現(xiàn)象，正是這種背景下，隨著學(xué)科領(lǐng)域的發(fā)展，出現(xiàn)了大批的詞組型長(zhǎng)術(shù)語(yǔ)，并且詞組型長(zhǎng)術(shù)語(yǔ)在整個(gè)術(shù)語(yǔ)系統(tǒng)中也遠(yuǎn)遠(yuǎn)超過(guò)了單詞型術(shù)語(yǔ)的規(guī)模。

詞組型長(zhǎng)術(shù)語(yǔ)一般含有核心詞語(yǔ)來(lái)表示其概念內(nèi)容，圍繞在核心詞周圍往往還有很多修飾詞。所以僅憑長(zhǎng)術(shù)語(yǔ)中單個(gè)詞或一兩個(gè)詞很難判定其是否是術(shù)語(yǔ)。本文充分考慮組成長(zhǎng)術(shù)語(yǔ)中的每個(gè)詞對(duì)整體的影響，利用上述提到的式(1)和式(2)，設(shè)計(jì)一個(gè)表示單個(gè)詞對(duì)術(shù)語(yǔ)貢獻(xiàn)度大小的術(shù)語(yǔ)權(quán)重因子，最后將每個(gè)詞的術(shù)語(yǔ)權(quán)重因子加和求均值來(lái)表示該長(zhǎng)術(shù)語(yǔ)成為術(shù)語(yǔ)的可能性大小。術(shù)語(yǔ)權(quán)重因子公式如下：

(5)

其中，H(t)越小，表示該候選術(shù)語(yǔ)t在平衡語(yǔ)料中分布越不均勻，其越有可能是領(lǐng)域術(shù)語(yǔ)，對(duì)H(t)做了取倒操作來(lái)與D(t)的變化保持一致。

4　實(shí)驗(yàn)和結(jié)果分析

本文的實(shí)驗(yàn)語(yǔ)料為專利總局提供的8000篇關(guān)于新能源電動(dòng)汽車領(lǐng)域的專利摘要文獻(xiàn)。專利摘要一般包含專利標(biāo)題、專利分類號(hào)和申請(qǐng)專利說(shuō)明。平衡語(yǔ)料選用了搜狗實(shí)驗(yàn)室開放的2012年分類語(yǔ)料[14]，選取軍事、娛樂(lè)、女人、旅游、經(jīng)濟(jì)、房地產(chǎn)等六大類領(lǐng)域語(yǔ)料各1300篇。

4.1實(shí)驗(yàn)步驟

先對(duì)所有文檔進(jìn)行分詞和詞性標(biāo)注。在此基礎(chǔ)上，將規(guī)則自動(dòng)生成算法所生成的候選規(guī)則集，保留其前40條最為最終的術(shù)語(yǔ)篩選構(gòu)詞規(guī)則。采用前向最大匹配算法對(duì)專利文檔處理，得到候選的詞組型長(zhǎng)術(shù)語(yǔ)22 935個(gè)，并按詞頻從大到小排序。候選單詞型短術(shù)語(yǔ)集則按名詞或動(dòng)名詞屬性過(guò)濾獲取，也按詞頻排序，數(shù)量為13 943。

結(jié)合平衡語(yǔ)料，對(duì)候選單詞型短術(shù)語(yǔ)集進(jìn)行式(1)運(yùn)算，自動(dòng)生成一部過(guò)濾詞典，詞匯量大小為1217個(gè)。候選單詞型短術(shù)語(yǔ)集在去除了過(guò)濾詞典后，繼續(xù)按式(3)篩選出最終的單詞型短術(shù)語(yǔ)4216個(gè),其中參數(shù)α和β分別設(shè)為0.4和0.6。過(guò)濾詞典則用來(lái)去除部分候選詞組型長(zhǎng)術(shù)語(yǔ)。在術(shù)語(yǔ)權(quán)重排名階段，式(5)中λ值為max(H(t))。術(shù)語(yǔ)可能性越大的排名越靠前，閾值的選定可以按準(zhǔn)確率和召回率的要求適當(dāng)調(diào)整。

4.2評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)結(jié)果用準(zhǔn)確率、召回率、F值進(jìn)行評(píng)價(jià)。由于語(yǔ)料規(guī)模較大，加上專家知識(shí)有限、很難標(biāo)注出所有術(shù)語(yǔ)，難以計(jì)算實(shí)際的召回率。為此隨機(jī)選取五組語(yǔ)料，每組由5篇專利文獻(xiàn)組成。對(duì)每組文獻(xiàn)單獨(dú)計(jì)算其準(zhǔn)確率和召回率。

定義3單組正確率，即單組文獻(xiàn)中，正確識(shí)別的術(shù)語(yǔ)數(shù)Nt與該組文獻(xiàn)中提取到的術(shù)語(yǔ)數(shù)Tt之比：

(6)

定義4單組召回率，即單組文獻(xiàn)中，正確識(shí)別術(shù)語(yǔ)數(shù)Nt與該組文獻(xiàn)中所有術(shù)語(yǔ)數(shù)At之比：

(7)

4.3結(jié)果分析

本文利用領(lǐng)域文檔一致度公式自動(dòng)生成了過(guò)濾詞典。1217個(gè)過(guò)濾詞在候選詞組型長(zhǎng)術(shù)語(yǔ)篩選出8215個(gè)非術(shù)語(yǔ)。部分結(jié)果如表3所示。

表3　部分過(guò)濾詞篩選出的長(zhǎng)術(shù)語(yǔ)結(jié)果

從表3可以看出，過(guò)濾詞確實(shí)很大程度上解決了規(guī)則寬泛所帶來(lái)的大量錯(cuò)誤候選長(zhǎng)術(shù)語(yǔ)問(wèn)題，大大提升了候選長(zhǎng)術(shù)語(yǔ)的質(zhì)量。過(guò)濾詞典借助平衡語(yǔ)料自動(dòng)生成，具有跨領(lǐng)域的優(yōu)勢(shì)。但“微生物燃料電池”、“電子散熱元件”等術(shù)語(yǔ)也被錯(cuò)誤地篩選了，這是因?yàn)椤拔⑸铩?、“電子”等基礎(chǔ)學(xué)術(shù)性詞匯早已突破了單個(gè)學(xué)科的限制，融入了人們的日常生活。提高過(guò)濾詞的篩選閾值可以部分避免這一現(xiàn)象。

對(duì)剩余候選長(zhǎng)術(shù)語(yǔ)利用詞匯密集度、文檔差比、文檔一致度三個(gè)加權(quán)因素計(jì)算其最終的術(shù)語(yǔ)權(quán)重并對(duì)其排序。排序結(jié)果如表4所示。

表4　候選長(zhǎng)術(shù)語(yǔ)排序結(jié)果

表4中結(jié)果表明該術(shù)語(yǔ)權(quán)重排名方法較為真實(shí)地反映了每個(gè)候選詞組型長(zhǎng)術(shù)語(yǔ)代表領(lǐng)域術(shù)語(yǔ)的真實(shí)程度。排名靠前的長(zhǎng)術(shù)語(yǔ)均是對(duì)新能源電動(dòng)汽車專利領(lǐng)域內(nèi)的核心知識(shí)表述，具有很強(qiáng)的專業(yè)性，集中概括了能源汽車這個(gè)領(lǐng)域知識(shí)體系的重要知識(shí)點(diǎn)。排名靠后的可以明顯判斷出其不屬于術(shù)語(yǔ)范疇，大都是分詞不規(guī)范而滿足一定詞性規(guī)則所遺留下來(lái)的短語(yǔ)結(jié)構(gòu)。此外排名靠前的結(jié)果集中如“固體聚合物電解質(zhì)膜燃料電池”這類四詞以上的長(zhǎng)術(shù)語(yǔ)也占了不小的比例，長(zhǎng)術(shù)語(yǔ)的正確識(shí)別，保障了整個(gè)術(shù)語(yǔ)庫(kù)的質(zhì)量，體現(xiàn)出領(lǐng)域知識(shí)特點(diǎn)。

以權(quán)重值5為閾值，將大于閾值的長(zhǎng)術(shù)語(yǔ)作為最后的術(shù)語(yǔ)識(shí)別結(jié)果?？偣埠I(lǐng)域術(shù)語(yǔ)10 843個(gè)。為了驗(yàn)證該方法在局部專利文獻(xiàn)內(nèi)的識(shí)別效果，選定了5組測(cè)試文檔，每組由5篇專利文獻(xiàn)組成，平均每篇文獻(xiàn)術(shù)語(yǔ)量達(dá)到12個(gè)。人工標(biāo)注出領(lǐng)域術(shù)語(yǔ)，對(duì)照最后的領(lǐng)域長(zhǎng)術(shù)語(yǔ)集和單詞型短術(shù)語(yǔ)，計(jì)算出單組準(zhǔn)確率、單組召回率評(píng)價(jià)指標(biāo)。考慮到文獻(xiàn)[10]的研究方向也是專利文獻(xiàn)的術(shù)語(yǔ)抽取，故選取其最終的實(shí)驗(yàn)結(jié)果作為BaseLine，結(jié)果如圖1所示。

圖1　術(shù)語(yǔ)抽取實(shí)驗(yàn)結(jié)果

從圖中的統(tǒng)計(jì)結(jié)果看出，本文提出的方法取得了不錯(cuò)的實(shí)驗(yàn)效果，五組專利文檔平均準(zhǔn)確率達(dá)到了86%，召回率達(dá)到了82%，相對(duì)于BaseLine80.24%的準(zhǔn)確率和80.61%的召回率，結(jié)果有不小的提高。實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)，對(duì)BaseLine中易識(shí)別錯(cuò)誤的動(dòng)賓結(jié)構(gòu)短語(yǔ)，如“發(fā)出信號(hào)”等詞組，本文生成的過(guò)濾詞典往往能涵蓋到那些常用動(dòng)詞，從而有效地避免了這一現(xiàn)象。BaseLine中存在的常用非術(shù)語(yǔ)搭配詞組在本方法中一部分被過(guò)濾詞典成功過(guò)濾，一部分自動(dòng)排序到術(shù)語(yǔ)詞表末尾處。只剩下分詞粒度過(guò)大的非術(shù)語(yǔ)搭配存在誤識(shí)別，如“電動(dòng)汽車結(jié)構(gòu)簡(jiǎn)單”、“蓄電池充電狀態(tài)”，這類詞語(yǔ)因符合詞性規(guī)則且反復(fù)出現(xiàn)，但由于分詞軟件將“結(jié)構(gòu)簡(jiǎn)單”、“充電狀態(tài)”分為單個(gè)詞，使其在平衡語(yǔ)料中也甚少出現(xiàn)，從而出現(xiàn)了誤識(shí)別。如將“結(jié)構(gòu)簡(jiǎn)單”拆分為“結(jié)構(gòu)”、“簡(jiǎn)單”，“充電狀態(tài)”拆分為“充電”、“狀態(tài)”，則能被成功過(guò)濾。少量在專利文檔內(nèi)很少出現(xiàn)，沒(méi)形成統(tǒng)計(jì)規(guī)律的低頻術(shù)語(yǔ)，如“電磁波衰減材料”等詞組，其術(shù)語(yǔ)權(quán)重排名靠后，在召回它們的同時(shí)會(huì)帶入大量非術(shù)語(yǔ)。

5　結(jié)　語(yǔ)

專利摘要中領(lǐng)域術(shù)語(yǔ)的識(shí)別，對(duì)后期專利知識(shí)庫(kù)的構(gòu)建和用戶對(duì)專利信息的語(yǔ)義檢索等方面都有著極為重要的意義。本文從專利文獻(xiàn)獨(dú)有的數(shù)據(jù)特點(diǎn)出發(fā)，設(shè)計(jì)了易移植的術(shù)語(yǔ)詞性規(guī)則生成算法，根據(jù)過(guò)濾詞在平衡語(yǔ)料內(nèi)分布比較均勻的特點(diǎn)，利用文檔一致度熵公式自動(dòng)構(gòu)造過(guò)濾詞典，達(dá)到過(guò)濾掉一部分候選長(zhǎng)術(shù)語(yǔ)的目的，對(duì)剩下的數(shù)據(jù)集結(jié)合詞匯密集度、文檔差比、文檔一致度三個(gè)針對(duì)領(lǐng)域術(shù)語(yǔ)的分布規(guī)律公式來(lái)計(jì)算每個(gè)候選長(zhǎng)術(shù)語(yǔ)的術(shù)語(yǔ)權(quán)重參數(shù)，并按值排序，實(shí)現(xiàn)術(shù)語(yǔ)的自動(dòng)抽取。在實(shí)際應(yīng)用階段，如何最大限度準(zhǔn)確抽取無(wú)明顯統(tǒng)計(jì)規(guī)律的低頻候選長(zhǎng)術(shù)語(yǔ)，提高它們的術(shù)語(yǔ)權(quán)重排名，是需要進(jìn)一步改進(jìn)的地方。

[1] 專利分析系統(tǒng):專利生命周期評(píng)價(jià)模型[EB/OL].(2011-08-02).[2014-07-02].http://www.iprtop.com/pages/view/fn/fxxt_7/.

[2] 韋小麗,孫涌,張書奎,等.基于最大熵模型的本體概念獲取方法[J].計(jì)算機(jī)工程,2009,35(24):114-116.

[3] 施水才,王鍇,韓艷鏵,等.基于條件隨機(jī)場(chǎng)的領(lǐng)域術(shù)語(yǔ)識(shí)別研究[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(10):147-149.

[4] 胡阿沛,張靜,劉俊麗.基于改進(jìn)C-value方法的中文術(shù)語(yǔ)抽取[J].現(xiàn)代圖書情報(bào)技術(shù),2013,29(2):24-29.

[5] 陳士超,郁濱.面向術(shù)語(yǔ)抽取的雙閾值互信息過(guò)濾方法[J].計(jì)算機(jī)應(yīng)用,2011,31(4):1070-1073.

[6] 屈鵬,王惠臨.面向信息分析的專利術(shù)語(yǔ)抽取研究[J].圖書情報(bào)工作,2013,57(1):130-135.

[7] 林磊,孫承杰,張二艷,等.一種基于改進(jìn)似然比的術(shù)語(yǔ)自動(dòng)抽取方法[J].廣西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2010(1):153-156.

[8] 劉豹,張桂平,蔡?hào)|風(fēng).基于統(tǒng)計(jì)和規(guī)則相結(jié)合的科技術(shù)語(yǔ)自動(dòng)抽取研究[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(23):147-150.

[9] 湯青,呂學(xué)強(qiáng),李卓,等.領(lǐng)域本體術(shù)語(yǔ)抽取研究[J].現(xiàn)代圖書情報(bào)技術(shù),2014(1):43-50.

[10] 徐川,施水才,房祥,等.中文專利文獻(xiàn)術(shù)語(yǔ)抽取[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(6):2175-2179.

[11] Sui Zhifang,Chen Yirong.The Research on the Automatic Term Extraction in the Domain of Information Science and Technology[C]//Proceedings of the 5th East Asia Forum of the Terminology,2007.

[12] 周浪.中文術(shù)語(yǔ)抽取若干問(wèn)題研究[D].南京:南京理工大學(xué)計(jì)算機(jī)學(xué)院,2009.

[13] 傅麗鳥,黃利強(qiáng),付春雷.一種改進(jìn)的面向文本的領(lǐng)域概念篩選算法[J].計(jì)算機(jī)科學(xué),2012,39(Z6):253-256.

[14] 搜狗官方實(shí)驗(yàn)室文本分類語(yǔ)料庫(kù).[EB/OL].(2008-06-30).[2014-07-02].http://www.sogou.com/labs/dl/c.html.

A FIELD TERMINOLOGY EXTRACTION METHOD FOR PATENT ABSTRACTS

Zeng ZhenLü XueqiangLi Zhuo

(BeijingKeyLaboratoryofInternetCultureandDigitalDisseminationResearch,BeijingInformationScienceandTechnologyUniversity,Beijing100101,China)

The quality of ontology is determined by the result of terminology extraction in patent field. In this paper we propose a method of terminology extraction, which automatically generates the filtering dictionary and combines the effect of factors such as the intensity of vocabulary terms. First, on the basis of word segmentation and parts of speech tagging, it matches the template generated by the parts of speech rule algorithm on the literatures and gets the candidate long terms set and word-type short terms set. Then it uses the filtering dictionaries generated with documentation coincidence to filter part of the candidate long term set. Finally, in light of the characteristic of long terms constitution, it uses the weighted average of three term factors of word intensity, document discrepancy ratio and document consistency as the term weight of whole long terms, and sorts them from high to low. Experiments were conducted on the benchmark corpus of 8000 patent summary literatures, and we randomly selected five sets of experimental data, the average accuracy rate achieved 86%. Results showed that the method was effective in the aspect of field terminology extraction.

Field terminologyOntology creationFiltering dictionaryWords intensity

2014-07-20。國(guó)家自然科學(xué)基金項(xiàng)目(61271304)；北京市教委科技發(fā)展計(jì)劃重點(diǎn)項(xiàng)目暨北京市自然科學(xué)基金B(yǎng)類重點(diǎn)項(xiàng)目(KZ201311232037)；北京市屬高等學(xué)校創(chuàng)新團(tuán)隊(duì)建設(shè)與教師職業(yè)發(fā)展計(jì)劃項(xiàng)目(IDHT20130519)。曾鎮(zhèn)，碩士，主研領(lǐng)域：中文信息處理。呂學(xué)強(qiáng)，博士。李卓，研究員。

TP3

10.3969/j.issn.1000-386x.2016.03.010

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種面向?qū)＠念I(lǐng)域術(shù)語(yǔ)抽取方法

0 引 言

1 詞性規(guī)則模板

2 過(guò)濾詞典

3 詞匯密集度和文檔差比

4 實(shí)驗(yàn)和結(jié)果分析

5 結(jié) 語(yǔ)

0　引　言

1　詞性規(guī)則模板

2　過(guò)濾詞典

3　詞匯密集度和文檔差比

4　實(shí)驗(yàn)和結(jié)果分析

5　結(jié)　語(yǔ)