亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于邊界標記集的專利文獻術語抽取方法*

        2015-03-19 00:35:34呂學強劉克會
        計算機工程與科學 2015年8期
        關鍵詞:方法

        丁 杰,呂學強,劉克會

        (1.北京信息科技大學網絡文化與數(shù)字傳播重點實驗室,北京100101;2.北京城市系統(tǒng)工程研究中心,北京100035)

        1 引言

        專利文獻是當今世界科學技術最大的信息源,快速有效地利用此信息源,能夠促進人類新知識的傳播和科技成果的普及。術語是自然語言處理中的一種特殊的詞匯數(shù)據(jù),與語言中一般的普通詞匯不同,術語大多數(shù)都是由多個單詞組成的詞組型術語,它們對于科學技術的發(fā)展特別敏感,隨著科學技術的發(fā)展而發(fā)展[1]。在中文專利信息處理過程中,專利術語識別是一個基礎環(huán)節(jié),專利的檢索、專利翻譯等后續(xù)工作都離不開中文專利術語的識別。因此,專利術語識別質量的高低直接影響到專利文獻的應用和科學技術的普及。

        現(xiàn)有的專利術語抽取方法主要有語言學方法、統(tǒng)計學方法及統(tǒng)計學和語言學相融合的方法[2]。目前,大部分的研究已經從傳統(tǒng)的語言學方法逐步轉變?yōu)榻y(tǒng)計與語言學相結合的方法。利用統(tǒng)計的方法獲取候選術語,再結合規(guī)則的方法對候選術語進行規(guī)則過濾。其中,文獻[3,4]通過改進的TFIDF模型并經權重計算和閾值篩選后得到專利術語集,但是其方法領域針對性較強,無法證明在大規(guī)模語料中的通用性。文獻[5~7]等使用條件隨機場模型CRF(Conditional Random Fields)機器學習方法結合過濾規(guī)則對術語進行抽取,該方法能顯著提高未登錄術語的召回率,但是語料的標注卻需要消耗大量的人力和時間。文獻[8,9]通過統(tǒng)計和規(guī)則相結合的方法,構建相應的規(guī)則庫并選擇有效的統(tǒng)計量或機器學習模型對中文專利文獻進行術語抽取,但并未考慮上下文的信息。

        本文在總結前人研究的基礎之上,針對前人研究方法在大規(guī)模語料中的通用性差、語料標注費時費力的缺點,提出了邊界標記集的概念,并應用邊界標記集的獲取無需人工標注、領域獨立性的特點,提出基于邊界標記集的術語抽取方法。該方法首先根據(jù)文中邊界標記集的定義提出邊界標記集的構造方法;然后使用種子術語權重計算方法抽取候選術語并結合術語部件庫抽取術語;最后通過統(tǒng)計和規(guī)則的方法對抽取出的術語進行過濾。該方法充分考慮了專利術語的上下文信息特點,對抽取長術語和短術語都有較好的效果,可明顯提高術語抽取的準確率和召回率。

        2 基于邊界標記集的專利術語抽取方法

        2.1 邊界標記集的概念

        句子是由實詞和虛詞連接構成的,對于句子中的每一個詞,與它直接相鄰的兩個詞稱之為它的前驅與后繼,本文根據(jù)專利文獻中術語和前后兩個詞的位置關系,定義術語邊界標記集如下:

        定義1術語邊界標記集:在專利文獻中,由專利術語的前驅和后繼及對應的詞性所構成的集合稱為術語的邊界標記集。

        作為專利術語的邊界標記是通用性較強、具有一般詞匯意義的詞,并且這些詞具有一定的領域獨立性。在專利文獻中,同一個術語的上下邊界標記可能存在多個。例如:術語“光刻投影裝置”的上邊界標記詞有“一種”、“用”、“的”等,下邊界標記詞為“來”、“中”、“工作”等;不同專利術語可能存在相同的邊界標記詞,例如“掩模臺”和“晶片步進器”具有相同的上邊界標記詞“在”。雖如此,但可以看出這些詞在詞性構成上具有一定的相似性,如大部分是動詞、助詞、標點等。為能夠更直觀地展示出專利文獻中邊界標記集元素的構成,本文隨機抽取10篇不同領域專利文獻并統(tǒng)計術語邊界標記集,文獻中術語的邊界標記詞性構成的統(tǒng)計結果如表1所示。

        Table 1 Part of speech distribution of boundary tags in the term boundary tag set表1 術語邊界標記集中邊界標記詞性分布表

        由表1可以看出:專利術語邊界標記符的集合由一些沒有構詞能力的實詞,如動詞,一些標點符號以及一些虛詞,如介詞、連詞、量詞等構成。根據(jù)上述邊界集詞性特點并對邊界詞與術語在專利文獻中的共現(xiàn)信息統(tǒng)計分析,總結邊界標記集的特點如下:

        (1)完備性。邊界標記集的完備性是指邊界標記集合中的邊界標記可將專利文獻完全切分為字符串長度符合術語長度的候選術語串的程度。一般來講,邊界標記集的完備性越高,抽取專利術語的召回率越高。

        (2)多樣性。邊界標記集合的多樣性是指由于專利術語的上下文不同導致專利術語的邊界標記也不相同,同時,不同術語的上下文標記也不完全相同。

        (3)重復性。邊界標記集的重復性是指邊界標記集中存在一些邊界標記可以作為多個術語的邊界。例如,同一個介詞或其它一些常見的虛詞可能成為不同專利術語的上界標記或下界標記。例如“由/p扎/v模/n工藝制備/n”“由/n 傳感器裝置/n”中上邊界“由/p”可作為多個專利術語的邊界。

        根據(jù)專利文獻中對發(fā)明專利陳述的特點,不同領域的專利文獻都可采用相同的邊界標記集的構建方法。首先,不同領域的專利文獻有很多相同的邊界標記集,例如:“該發(fā)明”“利用”“使用”“提高”“以便于”都在不同領域的專利文獻中出現(xiàn);另外,一些標點等非文字特征的邊界標記也是不同領域的專利文獻所共有的邊界標記。因此,邊界標記集具有一定的通用性,并根據(jù)不同領域專利文獻的擴展而擴展。

        雖然中文專利文獻中的邊界標記集提供了邊界詞之間詞串構成術語的可能性,但不能完全保證前后邊界標記詞之間的詞串就是術語。因此,需要根據(jù)邊界標記集的特點,并結合一定的術語抽取規(guī)則和統(tǒng)計量來抽取術語。

        2.2 基于邊界標記集的術語抽取流程

        根據(jù)術語邊界標記集的特點,本文提出基于部件的本體術語抽取方法,如圖1所示,主要包括種子術語抽取、種子術語擴展和候選術語校驗三個部分。其中在種子術語抽取部分包括邊界標記構建和術語部件庫構建;種子術語擴展部分充分利用詞性規(guī)則和統(tǒng)計量對抽取出的種子術語進行擴展,最終根據(jù)術語左右熵的方法對搭配錯誤的候選術語進行過濾。

        3 種子術語抽取

        3.1 邊界標記集構建方法

        從邊界標記集的定義可以看出,每個術語都具有術語邊界標記集,且專利術語的邊界標記集就是專利術語的上下文信息。根據(jù)專利文獻術語上下文信息并結合邊界標記集的特點,通過以下方法構建術語邊界標記集Set:

        Figure 1 Chinese patent term extraction method圖1 中文專利術語抽取方法

        (1)初始化術語邊界標記集Set為空。

        (2)利用統(tǒng)計量IDF構造專利文獻通用詞表,將專利文獻中IDF值較高的無構詞能力的詞作為專利文獻通用詞,并添加到標記集Set中。

        (3)將專利文獻中標點、數(shù)詞、介詞、連詞、助詞等添加到標記集Set中。

        雖然介詞、連詞和副詞后面的動詞是專利術語邊界標記集的組成部分,但均不能作為專利術語的組成部分,將該類的動詞也加入邊界標記集Set中,例如,專利文獻中“還/d 包括/v”“所/u 述/v”“還/d 可以/v”中“還/d”、“所/u”都不是術語的組成部分。

        3.2 術語部件庫構建

        術語是由一個或多個詞構成的,其中有些詞生成術語的能力很強,有些詞生成術語的能力不強,這些構成術語的一個個詞就叫做術語部件[10]。術語一般分為單詞型術語和多詞型術語兩類,單詞型術語由單個詞語組成,如“傳感器”“過濾器”等。單詞型術語本身就是部件,它可以生成新的短語型術語,如“溫度傳感器”“廢氣過濾器”,而構成多詞型術語的每個詞都可以看作術語部件。

        單詞型術語識別通常采用語料庫比較的方法,即選擇一個通用的平衡語料庫與領域語料庫相比較,比對兩個語料庫生成的詞表并按照與頻度相關的某個統(tǒng)計量進行排序,刪除領域詞表中在通用詞表中統(tǒng)計量高的,剩下的詞被認為是術語[11]。

        單詞型術語的識別和部件庫的構建在方法上是一致的,但部件庫中的每個詞未必都是術語。文中的術語部件僅從術語的領域性來考慮,如果一個詞具有較強的領域性,可以把這個詞看作術語部件,因此可以采用與上述抽取單詞型術語類似的方法來抽取領域部件。人民日報中的詞匯大部分是人們生活中經常使用的詞匯,領域性較弱,為此本文選用1998年1 月份人民日報熟語料[12]作為專利文獻的對比語料,比較兩個語料庫生成的詞表,將只在專利詞表出現(xiàn)的詞匯抽取出來作為專利術語部件,所得的部分術語部件如表2所示。

        Table 2 Term component library表2 術語部件庫

        從表2的結果中可以看出,有些部件已經是術語,如“暗電流”“光電二極管”等,或是術語的組成部分,如“設備、蝕刻、輸出”。通過觀察抽取出的術語部件庫發(fā)現(xiàn):部件庫中存在一些詞不能作為術語的組成詞,如“范圍”,但這并不影響術語的抽取效果,因為文中的部件庫僅用于對候選串進行過濾,并不使用部件庫來生成術語,所以最終能夠提高候選術語的術語度,而不會在術語識別過程中引入噪音。

        3.3 種子術語抽取

        根據(jù)術語邊界標記集完備性的特點,將專利文獻中相鄰的兩個邊界標記之間的字符串抽取出來,并通過術語部件庫過濾以獲取候選術語。種子術語抽取的過濾規(guī)則如下:

        規(guī)則1若抽取出的字符串為單字詞,則該單字詞必須在部件庫中出現(xiàn),否則刪除該字符串;

        規(guī)則2若抽取出的字符串為多字詞,經分詞后的每個單字詞中應該至少有一個在部件庫中出現(xiàn),否則將該字符串刪除。

        將上述規(guī)則過濾之后剩余的字符串作為術語候選串。專利術語在專利文獻中的存在具有相對穩(wěn)定的結構,其內部詞語可以看作一個完整的結構,不可隨意拆分。目前,術語抽取研究中使用的大部份統(tǒng)計方法都是基于術語的結構完整性特征,選擇有效的統(tǒng)計量和評估機制,來衡量術語中詞語之間的黏合度以及共現(xiàn)概率[13]。其方法可分為兩類:一類是通過統(tǒng)計量分析詞串內部詞語之間的緊密關系,來確定該詞串是否是一個結構穩(wěn)定的短語;另一類認為:如果一個詞串多次在不同的上下文中出現(xiàn),那么該詞串可以作為結構上結合緊密的單元,并且很有可能是術語。

        專利術語邊界標記集具有多樣性,同一個術語上下文環(huán)境的不同,術語的上下邊界標記也不相同,從而可證明該術語具有穩(wěn)定的結構,這也符合上文中第二種評估字符串粘合度的方法。因此,可通過候選術語被不同的切分標記切分的數(shù)量來衡量候選術語的緊密結合程度。實驗中使用了改進的TF-IDF方法,弱化了高詞頻對權重的影響,增加了通過多樣性切分標記切分獲取的候選串的權重。本文根據(jù)邊界標記集的特點提出種子術語的權重計算方法,具體計算方法如下:

        其中,preSeg、postSeg分別為候選術語S前后邊界標記集合;f(preSeg)為術語邊界標記集合大小,因為preSeg、postSeg都表示集合,都已將重復的候選串刪除,弱化了同一術語相同上下文在術語抽取中的作用,增強了切分標記集多樣性的影響;N表示所有專利文獻的篇數(shù);df(S)表示候選術語串在所有專利文獻中出現(xiàn)的篇數(shù);α、β為權重因子。將Weight(S)滿足某一個閾值的候選術語抽取出來作為種子術語。

        4 種子術語余串擴展

        為了便于對種子術語進行擴展,通過種子術語對包含種子術語的候選串進行擴展,并定義如下變量。

        定義2種子術語余串:在候選術語串中,去除種子術語后剩余的部分,稱之為種子術語的余串。

        定義3單字詞:本文將經ICTCLAS[14]切分且具有獨立詞性標注的最小語義單元稱作單字詞。如“形成/v”,“傳感器/n”“的/u”。

        定義4最長術語:本文將在專利文獻中出現(xiàn)的且不被更長的術語包含的專利術語稱之為最長術語。

        在本文實驗中,通過邊界標記符集抽取的候選串都是“寬類型”的,這里的“寬類型”是指一個候選串是術語或者包含一個最長的術語,而不會被其它更長的專利術語包含。例如候選串“制造/v CMOS/x 圖像/n 傳感器/n”中包含最長的術語“CMOS/x 圖像/n 傳感器/n”,而不會被其他更長的術語包含,這是因為在候選串中出現(xiàn)的詞未在邊界標記集中出現(xiàn)?;诤蜻x串的這個特點,可以在種子術語基礎之上,對候選串進行左右種子術語余串擴展。例如,種子術語“傳感器/n”,如果“圖像/n 傳感器/n”不在種子術語中,可以通過種子術語左擴展一個單字詞“圖像/n”,抽取出術語“圖像/n傳感器/n”。

        4.1 詞性規(guī)則過濾單字余串

        定義5上邊界拒?。涸O候選串S可以表示為S1S2,其中S2為種子術語,S1為單字詞,如果S1S2不符合術語詞性搭配規(guī)則,則將S1刪除,稱之為上邊界拒取。

        定義6下邊界拒取:設候選串S可以表示為S1S2,其中S1為種子術語,S2為單字詞,如果S1S2不符合術語詞性搭配規(guī)則,則將S2刪除,稱之為上邊界拒取。

        根據(jù)文獻[13]中統(tǒng)計結果并結合專利術語的特點發(fā)現(xiàn),專利術語大多都是以名詞(/n)、動詞(/v)、形容詞(/a)、副詞(/d)等四類詞開頭,且大多以名詞和動詞為主極,少數(shù)以副詞開頭。但是,當候選串是以動詞開頭時,若動詞前面的修飾詞是副詞時,該副詞和動詞具有“發(fā)出動作”的語義,不是術語的組成部分,因此一些被副詞修飾的動詞不能作為專利術語上邊界,此時副詞將視為拒絕后驅詞(動詞)作為術語上邊界的提示詞;一些緊跟介詞后面的動詞也具有“發(fā)出動作”的語義,同樣也不能作為術語的上邊界。如“以/p 保護/v 感測組件/n”“通過/p調節(jié)/v減壓閥/n”中“保護”“調節(jié)”都不能作為專利術語的組成部分。術語大多以名詞(/n)、動詞(/v)、形容詞(/a)、助詞(/u)、后綴詞(/k)、量詞(/q)等作為結尾。因此,一些具有“發(fā)出動作”的動詞以及緊跟其后的介詞也都不能作為術語的構成詞。部分統(tǒng)計的規(guī)則如表3和表4所示。

        Table 3 The pre-boundary tag rules表3 上邊界拒取規(guī)則表

        Table 4 The post-boundary tag rules表4 下邊界拒取規(guī)則表

        4.2 統(tǒng)計量擴展單字余串

        在術語抽取過程中,常使用一些統(tǒng)計量來計算術語之間的結合程度。其中,張鋒等[15]使用互信息來計算術語之間結合的緊密程度,林磊等[16]通過似然比來計算。但是,一些結合緊密、頻度較高的候選串并不能構成術語。例如:“操縱/v 送/v料/n 推桿/n”、“推動/v送/v料/n 推桿/n”都不是術語,只是選術語“送/v 料/n 推桿/n”的兩個固定搭配。針對以上問題,本文綜合考慮了詞頻、構成術語的詞串長度和詞性搭配信息,提出了余串術語修飾度的計算方法來衡量單字余串和種子術語之間的粘合程度,以決定是否對種子術語擴展。余串修飾度是對余串和種子術語之間緊密關系的度量,計算方法如公式(2)所示:

        其中,Weight(Left)表示候選串中余串的修飾度;POSTTagging表示候選術語S所包含的種子術語的所有單字余串;POSTSet表示所有單字余串集合,在POSTSet中出現(xiàn)的單字詞都是實詞,因為大部分虛詞已經作為候選術語的邊界標記;F(POSTTagging)為特征函數(shù),如果集合中POSTTagging的詞性與候選串S的單字余串相等 則 取1,否 則 取0;β為 調 節(jié) 因 子,若∑F(POSTTaging)值為1,β取1,否則β取0。當∑F(POSTTaging)的取值大于1時,表明修飾同一種子術語的同一詞性的實詞有多個,該詞性余串和種子術語不具備修飾關系。Len(Left)表示候選術語S單字余串的長度,F(xiàn)re(S)表示候選術語S的頻度。例如:候選串“制造/v 圖像/n 傳感器/n”中“圖像/n 傳感器/n”是種子術語,Contex={制造/v,觸發(fā)/v},則β取0,不對種子術語往前擴展。因為如果修飾“圖像/n傳感器/n”的動詞有多個,那么這些動詞應該都具有發(fā)出動作的語義,而不應作為種子術語的前綴,而對候選術語“透光/v樹脂/n 材料/n”中種子術語是“樹脂/n 材料/n”,Contex={透光/v},β取1,那么“透光/v”很有可能是術語的組成部分。

        4.3 種子術語多字余串擴展

        上述兩種方法只能處理種子術語前后的單字余串,在候選術語中存在余串為多字的候選術語。如候選術語“易/a受/v 腐蝕性/n 含氟/n 化合物/n 侵蝕/v”中包含種子術語“含氟/n 化合物/n”,其前余串為“易/a 受/v 腐蝕性/n”,后余串為“侵蝕/v”,后余串可以采用上述統(tǒng)計量擴展單字余串的方法給予排除,而對于前余串主要使用詞性規(guī)則的方法處理。統(tǒng)計術語的詞性搭配規(guī)則,采用如下算法對多字余串進行擴展:

        算法種子術語多字余串擴展算法

        輸入:

        包含種子術語和多字余串的種子候選術語集合Set:S為Set中的候選術語且候選串可以表示為preSeg+Seed+PostSeg形式,其中preSeg、PostSeg都為多字余串;

        所有單字詞的詞性集合TagSet:TagSet中元素為〈Token,Tag〉,其中Token為單字詞性,Tag為單字詞性的詞性。

        輸出:經多字余串擴展后的術語。

        算法描述:

        邊界標記集抽取出來的候選術語中有的不包含種子術語,對此,我們計算出候術語和其他候選術語的最長公共字串作為種子術語,如果公共字串包含名詞,使用上述種子術語擴展的方式進行術語擴展,否則丟棄該候選術語,這就彌補了部分候選術語中因為不存在種子術語而不能對種子術語進行擴展方法的不足,提高了術語抽取的召回率。

        5 候選術語校驗

        實驗中的候選術語,依然有部分類似于v+n型的名詞性短語作為候選術語,但該類的候選術語大多是一些固定的搭配,不能作為專利術語。通過統(tǒng)計發(fā)現(xiàn):在該類候選術語中存在一些詞很容易構成搭配關系,即這類詞語與其它詞語搭配的靈活性非常大。針對術語抽取中的這種現(xiàn)象,劉里[17]提出了一種基于左右熵的短語過濾方法,本文借鑒上述方法,對活躍詞性候選術語進行過濾。具體方法如公式(3)所示:

        其中,l表示出現(xiàn)在種子術語w左側的詞匯的集合;r表示出現(xiàn)在種子術語w右側的詞匯集合;p(lw|w)表示詞l出現(xiàn)在w左側的概率;p(lw|w)表示詞r出現(xiàn)在w右側的概率。

        根據(jù)上述公式,如果某個余串是易于搭配的活躍詞匯,那么這個詞的左右兩個熵應該只是有一個比較大。如果一個單字詞作為詞首出現(xiàn),那么需計算該單字詞右側與其它詞匯搭配的熵的大小,如果該單字詞作為詞尾出現(xiàn),則需要計算該單字詞左側與其它詞匯搭配的熵的大小。例如,候選串“面對/v集成電路/n”“布置/v 傳感器/n 器件/n”“傳感器/n器件/n制造/v”都可以通過活躍詞匯的左右熵過濾后正確抽取出術語“集成電路”“傳感器器件”。

        6 實驗結果和分析

        本文使用涉及紡織、機械、物理、電學四個領域每個領域1 000篇、共計4 000篇專利文獻作為實驗語料,通過ICTCLAS[14]對專利文獻進行專利分詞及詞性標注,并基于此構建邊界標記集。評測采用準確率(P)、召回率(R)和F值進行評測。各指標定義如下:

        在評估實驗結果正確率和準確率時,每個領域隨機抽取150篇、共600篇作為測試語料,在術語抽取過程中閾值設定的好壞將極大地影響實驗的結果,閾值的最終確定需要通過大量的實驗來實現(xiàn)。在本實驗中,鑒于候選術語的前后邊界標記在種子術語抽取過程中起到等同的作用,在公式(1)中人為設定α、β都為0.5,在選取閾值抽取候選術語時經實驗驗證選取0.6作為候選術語閾值,公式(2)中使用統(tǒng)計量方法進行余串擴展時設置權重Weight(Left)為3.0時具有較佳的識別效果。人工標注選取文獻中出現(xiàn)的術語,將本文的方法和傳統(tǒng)的c-value[18]和文獻[15]中互信息抽取術語的方法在相同測試集下進行對比,表5是在候選術語權重分別取0.55、0.60、0.65的實驗結果。

        從表5統(tǒng)計結果可以看出,本文提出的基于邊界標記集的方法效果良好,正確率和召回率都明顯高于互信息方法和c-value方法。從本方法不同的weight(S)閾值設定可以看出,當候選串weight(S)閾值設為0.55時本文方法具有較高的召回率,當weight(S)閾值設為0.65時具有最高的準確率,但weight(S)設為0.60時本文方法具有最高的F值,此時準確率比c-value方法高出3個百分點,比互信息方法高出6個百分點,召回率比c-value方法高3個百分點,與互信息方法相比,高11個百分點。

        Table 5 Experiment results in contrast with other methods表5 本方法和其它方法結果對比

        由此可見,本文方法相對對比實驗中的其他方法具有良好的術語抽取準確率和召回率。為當weight(S)閾值設為0.60 時,不同長度術語抽取結果如表6所示。

        從表6中可以看出,本文中將單字定義為分詞后的最小單詞形式,因此互信息的方法不能對單字術語起作用,然而本文的單字抽取召回率高于cvalue的方法。這是因為在應用c-value方法來計算候選術語權重時,不僅考慮了候選術語的詞頻,還需要考慮該候選串被包含更長候選術語的次數(shù),即被包含的次數(shù)越多,對應的術語的權重就會越低。專利文獻中的術語有很大一部分是被長術語包含的,而本文中的方法不需要考慮這些因素。但是,互信息的方法對雙字詞的抽取效果最佳,高于本文中的方法,而本文中雙字詞的抽取效果略高于c-value的方法。

        但是,通過對四字和四字以上的長術語的對比效果可以看出,本文方法要明顯優(yōu)越于其它兩種方法,這是因為本文的方法中的邊界標記集的多樣性,一些作為短術語的邊界標記同樣可以對較長的術語邊界標記;同樣,術語部件庫對不同長度的候選術語都能起到相同的過濾效果,即與候選術語長度無關。另外,在專利文獻中存在一些詞頻為1的長術語,例如“P/x-/n 型/k 金氧半/n 位/q 準/a轉換/v電路/n”“堆棧式/n N/x-/n 型/k 金氧半/n 晶體管/n 形式/n”等也可以通過本文中的方法抽取出來。

        7 結束語

        本文通過構建邊界標記符集進行術語抽取,過濾部分標記之間的候選串作為種子術語,包含種子術語的候選串,采用規(guī)則和修飾度的方法來確定是否對種子術語進行擴展。對低頻候選串采用最長公共字串擴展的方法抽取低頻術語,提高了低頻術語的召回率。實驗表明,該方法能夠有效地識別出大部分高頻術語和部分低頻術語。但同時,規(guī)則制定時難免會引入一部分噪音,同時對低頻術語抽取時,擴展模式過于單一,不能提取所有低頻術語。本文中邊界標記集的構建存在一些不足,邊界標記集中存在一些單字詞是術語的組成部分,但錯誤地判別為停用詞,如術語“電子/n-/n 空穴/n 對/p”中“對/p”錯誤地判定為邊界標記。

        下一步工作中,我們將根據(jù)論文中邊界標記集中出現(xiàn)的錯誤,進一步優(yōu)化邊界標記集,提高邊界標記集的正確性并制定出一些更加準確的術語擴展規(guī)則,以抽取出更多的術語。

        Table 6 Accuracy comparison of different methods表6 不同方法正確率對比

        [1] Feng Zhi-wei.A new scientific domain in terminology——computational terminology[J].Terminology Standardization&Information Technology,2008(4):4-9.(in Chinese)

        [2] Zhang Wen-jing,Liang Ying-h(huán)ong.Study on the technology of term identification [J].Information Technology,2008(3):6-9.(in Chinese)

        [3] Zhai Du-feng,Liu Bai-song.Automatic domain-specific term extraction in administrative-domain ontology[J].New Technology of Library and Information Service,2010,26(4):59-65.(in Chinese)

        [4] Gu Jun,Wang Hao.Study on term extraction on the basis of Chinese domain texts[J].New Technology of Library and Information Service,2011,27(4):29-34.(in Chinese)

        [5] Jia Mei-ying,Yang Bing-ru,Zheng De-quan,et al.Research on automatic military intelligence term extraction using CRF model[J].Computer Engineering and Applications,2009,45(32):126-129.(in Chinese)

        [6] Tang Tao,Zhou Qiao-li,Zhang Gui-ping.Term extraction based on the combination of statistics and rules[J].Journal of Shenyang Aerospace University,2011,28(5):71-74.(in Chinese)

        [7] Yue Jin-yuan,Xu Jin-an,Zhang Yu-jie.Chinese word segmentation for patent documents[J]Acta Scientiarum Naturalium Universitatis Pekinensis,2013,49(1)159-164.(in Chinese)

        [8] Dai Cui,Zhou Qiao-li,Cai Dong-feng,et al.Automatic identification of Chinese maximum noun phrase based on statistics and rules[J].Journal of Chinese Information Processing,2008,22(6):110-115.(in Chinese)

        [9] Zeng Wen,Xu Shuo,Zhang Yun-liang,et al.Automatic extraction technology research and analysis of scientific literature terminology[J].New Technology of Library and Information Service,2014:30(1):51-55.(in Chinese)

        [10] W Yun-fang,Sui Zhi-fang,Qiu Li-kun,et al.The approaches and strategies to describe the term component in information science and technology[J].Applied Linguistics,2003(4):34-39.(in Chinese)

        [11] He Yan,Sui Zhi-Fang,Duan Hui-ming,et al.Term mining combining term component bank[J].Computer Engineering and Applications,2006,42(33):4-7.(in Chinese)

        [12] Peking University Institute of Computational Linguistics.January 1998 Daily segmentation,annotated corpus[EB/OL].[2014-10-19].http://icl.pku.edu.cn/ic_groups/corpus/dwldform1.asp.2001-05-10/2004-04-1.(in Chinese)

        [13] Zhou Lang.Several research questions Chinese term extraction[D].Nangjin:Nangjin,Nanjing University of Science&Technology,2009.(in Chinese)

        [14] Zhang H P,Yu H K,Xiong D Y,et al.HHMM-based Chinese lexical analyzer ICTCLAS[C]∥Proc of the 2nd SIGHAN Workshop on Chinese Language Processing-Volume 17,2003:184-187.

        [15] Zhang Feng,Xu Yun,Hou Yan,et al.Chinese term extraction system based on mutual information[J].Application Research of Computers,2005,22(5):72-73.(in Chinese)

        [16] Lin Lei,Sun Cheng-jie,Zhang Er-yan,et al.A term extraction approach based on modified log-likelihood ratio[J].Journal of Guangxi Normal University(Natural Science),2010,28(1):153-156.(in Chinese)

        [17] Zhou Long,F(xiàn)eng Chong,Huang He-yan,et al.Oriented terminology extraction phrase filtering technology [J].Computer Engineering and Applications,2006,45(19):9-11.(in Chinese)

        [18] Frantzi K T,Ananiadou S,Tsujii J.The c-value/nc-value method of automatic recognition for multi-word terms[C]∥Proc of the 2nd Eruopean Conference,ECDL’98,1998:585-604.

        附中文參考文獻:

        [1] 馮志偉.一個新興的術語學科——計算術語學[J].術語標準化與信息技術,2008(4):3.

        [2] 張文靜,梁穎紅.術語抽取技術研究[J].信息技術,2008(3):6-9.

        [3] 翟篤風,劉柏嵩.政務領域本體術語的自動抽?。跩].現(xiàn)代圖書情報技術,2010,26(4):59-65.

        [4] 谷俊,王昊.基于領域中文文本的術語抽取方法研究[J].現(xiàn)代圖書情報技術,2011,27(4):29-34.

        [5] 賈美英,楊炳儒,鄭德權,等.采用CRF 技術的軍事情報術語自動抽取研究[J].計算機工程與應用,2009,45(32):126-129.

        [6] 唐濤,周俏麗,張桂平.統(tǒng)計與規(guī)則相結合的術語抽?。跩].沈陽航空航天大學學報,2011,28(5):71-74.

        [7] 岳金媛,徐金安,張玉潔.面向專利文獻的漢語分詞技術研究[J].北京大學學報(自然科學版),2013,49(1):159-164.

        [8] 代翠,周俏麗,蔡東風,等.統(tǒng)計和規(guī)則相結合的漢語最長名詞短語自動識別[J].中文信息學報,2008,22(6):110-115.

        [9] 曾文,徐碩,張運良,等.科技文獻術語的自動抽取技術研究與分析[J].現(xiàn)代圖書情報技術,2014,30(1):51-55.

        [10] 吳云芳,穗志方,邱利坤,等.信息科學與技術領域術語部件描述[J].語言文字應用,2003(4):34-39.

        [11] 何燕,穗志方,段慧明,等.一種結合術語部件庫的術語提取方法[J].計算機工程與應用,2006,42(33):4-7.

        [12] 北京大學計算語言學研究所.1998年1月人民日報切分、標注語料庫[EB/OL].[2014-10-19].http://icl.pku.edu.cn/ic_groups/corpus/dwldform1.asp.2001-05-10/2004-04 一1.

        [13] 周浪.中文術語抽取若干問題研究[D].南京,南京理工大學,2009.

        [15] 張鋒,許云,侯艷,等.基于互信息的中文術語抽取系統(tǒng)[J].計算機應用研究,2005,22(5):72-73.

        [16] 林磊,孫承杰,張二艷,等.一種基于改進似然比的術語自動抽取方法[J].廣西師范大學學報(自然科學版),2010,28(1):153-156.

        [17] 周浪,馮沖,黃河燕.一種面向術語抽取的短語過濾技術[J].計算機工程與應用,2009,45(19):9-11.

        猜你喜歡
        方法
        中醫(yī)特有的急救方法
        中老年保健(2021年9期)2021-08-24 03:52:04
        高中數(shù)學教學改革的方法
        河北畫報(2021年2期)2021-05-25 02:07:46
        化學反應多變幻 “虛擬”方法幫大忙
        變快的方法
        兒童繪本(2020年5期)2020-04-07 17:46:30
        學習方法
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        最有效的簡單方法
        山東青年(2016年1期)2016-02-28 14:25:23
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        亚洲婷婷久久播66性av| 日韩乱码视频| 无码国产日韩精品一区二区| 亚洲综合伊人久久综合| 无码一区久久久久久久绯色AV| 久久精品亚洲精品毛片| 久久精品日韩免费视频| 午夜视频在线瓜伦| 亚洲av综合久久九九| 亚洲一区二区三区偷拍女厕 | 亚洲精品在线免费视频| 品色堂永远免费| 麻豆精品久久久久久久99蜜桃| 操B小视频国产| 在线观看国产白浆一区三区| 东京道一本热中文字幕| 北条麻妃毛片在线视频| 日本免费一区二区三区在线看| 白白色福利视频在线观看| 精品一区二区三区在线视频| 无码国产精品一区二区高潮| 不卡国产视频| 日本淫片一区二区三区| 国产av一区二区三区天堂综合网| 免费无码成人av在线播放不卡| 不卡视频一区二区三区| 国产女主播视频一区二区三区| 人妖av手机在线观看| 99久久精品国产一区二区| 白又丰满大屁股bbbbb| 中文字幕永久免费观看| 国产av一区二区三区天美| 麻豆精品一区二区综合av| 欧美性巨大╳╳╳╳╳高跟鞋| 国产精品18久久久久久不卡中国| 亚洲国产精品av麻豆一区| 亚洲中文字幕人妻久久| 男男受被攻做哭娇喘声视频| 国产精品高潮av有码久久| 亚洲国产av综合一区| 久久久久久亚洲av成人无码国产|