亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于領(lǐng)域類別信息C-value的多詞串自動抽取

        2010-06-05 09:02:18王會珍朱慕華朱靖波
        中文信息學(xué)報 2010年1期
        關(guān)鍵詞:詞串評測列表

        李 超,王會珍,朱慕華,張 俐,朱靖波

        (東北大學(xué) 自然語言處理實驗室,遼寧 沈陽 110004)

        1 引言

        多詞串是一種比詞攜帶了更多信息的語言學(xué)表示,其應(yīng)用前景包括信息檢索、機器翻譯、問答系統(tǒng)、詞義消歧以及自動摘要等熱門任務(wù)[1]??紤]到人工收集多詞串的高昂代價以及信息時代領(lǐng)域知識的更新速度,如何用自動或者半自動的方法獲取多詞串就成為了自然語言處理領(lǐng)域的一個重要問題。

        到目前為止,多詞串的自動抽取方法包括最開始提出的基于語言學(xué)規(guī)則的方法[2-4]以及后期提出的基于頻率統(tǒng)計的抽取方法[5-8]。 C-value方法是目前用于解決多詞串抽取問題最為常用的方法之一。該方法考慮了候選多詞串的頻次,多詞串的長度以及多詞串間相互包含的信息并以一個有序的多詞串列表作為輸出結(jié)果。以前的研究工作已經(jīng)證明了C-value方法的有效性[9]。

        但是,采用傳統(tǒng)的C-value方法進(jìn)行多詞串抽取時,對于不同領(lǐng)域的抽取過程是獨立進(jìn)行的,那么就存在一些多詞串在多個領(lǐng)域的計算結(jié)果中都會得到較大的C-value值,最終在輸出列表中均獲得較高的排位,也就意味著它們在多個領(lǐng)域中同時具有“較高重要性”,對領(lǐng)域類別具有較弱的指示作用,不應(yīng)該作為領(lǐng)域多詞串的抽取結(jié)果。

        本文工作基于如下假設(shè):根據(jù)多詞串在不同領(lǐng)域的C-value輸出列表中的位置信息,多詞串的排序可以重新調(diào)整以獲得更好的性能。例如:采用C-value方法,多詞串“詳細(xì) 信息”在不同領(lǐng)域的輸出列表中都會排在靠前的位置,而多詞串“上海 大眾”僅在汽車領(lǐng)域中獲得較高的排位。在不同領(lǐng)域的C-value輸出列表中具有相近排位的多詞串(例如“詳細(xì) 信息”)具有較弱的領(lǐng)域相關(guān)性,在調(diào)整之后的多詞串列表中應(yīng)該賦予較低的排位;與之相對,如果多詞串在不同領(lǐng)域輸出列表中的位置分布差異較大(例如“上海 大眾”),在最終輸出結(jié)果中應(yīng)該賦予較高的排位。

        基于以上假設(shè),本文提出了一種基于領(lǐng)域類別信息的多詞串自動抽取方法:多類別C-value (Multi-Class C-value)。該方法對C-value在不同領(lǐng)域獨立輸出的結(jié)果進(jìn)行重新排序,得到最終的多詞串輸出列表。

        2 多詞串抽取方法

        本文提出的多類別C-value(Multi-Class C-value)方法,首先利用傳統(tǒng)的C-value計算方法在各個領(lǐng)域中獨立進(jìn)行多詞串抽取,生成多詞串列表,然后利用各個多詞串在不同列表中的位置分布信息進(jìn)行多詞串的重新排序,以獲得最終的抽取結(jié)果。

        2.1 C-value多詞串抽取

        使用傳統(tǒng)C-value方法進(jìn)行多詞串抽取的操作流程可以歸納如下:1)文本預(yù)處理,包括分詞和詞性標(biāo)注; 2)候選多詞串的抽??; 3)詞性規(guī)則過濾; 4)C-value值的計算; 5)輸出各個領(lǐng)域的多詞串列表。C-value的計算方法考慮了候選多詞串的長度(詞串中詞語的個數(shù))、頻次信息以及詞串相互包含的信息,計算公式如下所示:

        (1)

        其中:a表示候選的多詞串,|a|表示多詞串的長度,f(a)表示多詞串在整個語料庫中出現(xiàn)的頻次,Ta表示以多詞串a(chǎn)為子串的多詞串集合,P(Ta)表示集合Ta中的元素個數(shù)。

        在利用C-value方法進(jìn)行多詞串抽取時,除了C-value值的計算,另外一個需要考慮的問題是詞性過濾規(guī)則的構(gòu)建。只有符合詞性過濾規(guī)則的多詞串才會參與C-value值的計算。由先前工作可知,大部分多詞串只由名詞、形容詞、動詞、副詞以及介詞組成[10],因此本文所構(gòu)建的過濾規(guī)則只考慮上述五種詞性。

        2.2 MCC-value多詞串抽取

        2.2.1 MCC-value方法的引入

        傳統(tǒng)的C-value方法在各個領(lǐng)域中分別進(jìn)行多詞串抽取,可以成功地使部分領(lǐng)域相關(guān)的多詞串在輸出列表中排在較高的位置。表1給出了在汽車、科技和旅行領(lǐng)域的部分抽取結(jié)果。

        然而,由于傳統(tǒng)的C-value方法只考慮了多詞串本身在各自領(lǐng)域內(nèi)的分布信息,而沒有考慮多詞串在不同領(lǐng)域之間的分布,難以避免會有一部分多詞串,在各個領(lǐng)域中都具有較大的 C-value值,而在最終的輸出列表中獲得較高的排位,即該類多詞串在各個領(lǐng)域中具有類似的分布。直覺上解釋,如果某個多詞串在各個領(lǐng)域中的分布類似,表示該多詞串具有較弱的領(lǐng)域相關(guān)性,表2顯示了部分該類多詞串。

        表1 多詞串在不同領(lǐng)域的輸出列表中的位置情況

        表2 多詞串在不同領(lǐng)域的輸出列表中的位置情況

        在本文中,多詞串領(lǐng)域指示性的強弱被稱為“領(lǐng)域模糊度”,模糊度的具體計算方法將在2.2.2節(jié)中詳述。

        本文提出MCC-value方法的動機總結(jié)如下:

        1) 如果多詞串A只在一個領(lǐng)域的輸出列表中排在很靠前的位置,在其他輸出列表中沒有出現(xiàn)或者是排在很靠后的位置,那么多詞串對領(lǐng)域類別具有較強的指示作用,模糊度較低,能夠作為領(lǐng)域多詞串的抽取結(jié)果;

        2) 如果多詞串A在多個領(lǐng)域的輸出列表中都出現(xiàn)在很靠前的位置,那么多詞串屬于多個領(lǐng)域,對領(lǐng)域類別的指示作用較弱,其模糊度較高,在最終輸出的多詞串列表中的排位應(yīng)該被降低。

        2.2.2 MCC-value計算方法

        本文利用多詞串在傳統(tǒng)C-value方法輸出列表中的位置分布,定義了模糊度計算函數(shù)。該函數(shù)將被用于對傳統(tǒng)C-value輸出結(jié)果進(jìn)行重新排序,以得到最終的抽取結(jié)果。這種考慮多詞串在不同領(lǐng)域之間分布信息的C-value方法稱為多類別C-value(MCC-value)方法。本文首先定義模糊度計算公式,然后詳細(xì)介紹如何利用模糊度定義MCC-value方法。

        某個特定多詞串的模糊度(表示為AD(t))由該多詞串在各個領(lǐng)域的輸出列表中的位置決定,其計算公式定義如下:

        (2)

        其中:m表示領(lǐng)域個數(shù),集合S={S1,S2,…,Sm}表示C-value方法得到的m個多詞串集合,p(t,Si)代表多詞串t在第i個領(lǐng)域的C-value輸出列表中的位置,maxp(t,S)代表t在不同領(lǐng)域的輸出列表中位置的最大值,log2(1/m) 是歸一化因子。公式中的分子部分是一個類似于信息熵的計算式,恰好衡量了多詞串在輸出列表中的位置差異性,本文稱該部分計算式為“位置熵”。

        利用公式(2)可以計算得到任意一個多詞串的模糊度值。將傳統(tǒng)C-value方法得到的分值(C-value值)與AD值結(jié)合在一起,就可得到基于多類別C-value的多詞串自動抽取方法,該方法的計算公式定義見公式(3)。

        (3)

        其中:Cvalue(t,Si)表示多詞串t在第i個領(lǐng)域用傳統(tǒng)C-value方法計算得到的分值,AD(t)表示利用公式(2)計算得到的多詞串t的模糊度。公式中將Cvalue(t,Si)取對數(shù)是減弱Cvalue(t,Si)值對于MCCvalue(t,Si)值的影響。由公式(3)可知,模糊度 與MCC-value的值成反比關(guān)系,即模糊度AD(t)越小,意味著多詞串t在多個輸出列表中的位置差異性越大,多詞串對領(lǐng)域的指示性越強,MCC-value方法傾向于提高這類多詞串的排位。

        3 實驗

        3.1 實驗數(shù)據(jù)

        本文采用的語料來自于搜狗語料庫2.0版本*http://www.sogou.com/labs/dl/t.html。語料庫包含1億個網(wǎng)頁。根據(jù)對網(wǎng)頁的URL分析,可以自動得到部分具有領(lǐng)域類別的網(wǎng)頁。本文實驗采用汽車、科技和旅行三個領(lǐng)域的數(shù)據(jù)。其包含的網(wǎng)頁數(shù)量和詞的數(shù)量見表3所示。

        表3 實驗數(shù)據(jù)統(tǒng)計信息

        3.2 評價方法

        本文采用人工校對的方法對三個領(lǐng)域中的多詞串輸出列表分別評測。評測的結(jié)果采用準(zhǔn)確率作為評測指標(biāo)。為了提高實驗結(jié)果的可信度,本文的實驗結(jié)果評測過程中,3名人員獨立進(jìn)行,并采用了兩種評測方法:針對某個抽取方法得到的多詞串,評測方法1,當(dāng)3名評測人員中至少有2名人員一致判定多詞串抽取結(jié)果正確則認(rèn)為該多詞串抽取結(jié)果正確;評測方法2,判定條件更加嚴(yán)格,只有當(dāng)3名評測人員全部判定抽取結(jié)果為正確的條件下才認(rèn)為該多詞串的抽取結(jié)果為正確。

        判定領(lǐng)域多詞串正確的基本規(guī)則有兩個,第一,多詞串應(yīng)該帶有明顯的領(lǐng)域信息。例如:“上海 大眾”多詞串?dāng)y帶著明顯的汽車領(lǐng)域信息;第二,多詞串在語法上必須完整,例如,“責(zé) 聲明”這樣不完整的多詞串并不能作為正確的結(jié)果。不符合以上兩個標(biāo)準(zhǔn)的多詞串將判定為錯誤的結(jié)果。

        3.3 實驗結(jié)果

        在本文的實驗中,候選多詞串的最小長度為2,最大長度設(shè)置為6。由公式(1)可知,除了需要設(shè)定候選多詞串的最大長度以外,還需要設(shè)定包含當(dāng)前候選多詞串的更長詞串的最大長度。在本文實驗中該閾值設(shè)定為7。具體地說,假設(shè)當(dāng)前候選多詞串t的長度為L,則公式(1)只考慮包含多詞串t而且長度在[L+1,7]范圍內(nèi)的多詞串參與計算。

        從表4中可以看出MCC-value方法較于傳統(tǒng)的C-value方法有顯著的提高。在top-100的級別上,使用評測方法1,汽車領(lǐng)域多詞串抽取的結(jié)果準(zhǔn)確率由66%提高到78%,科技領(lǐng)域準(zhǔn)確率由63%提高到75%,而旅行領(lǐng)域準(zhǔn)確率由64%提高到77%。在這三個領(lǐng)域中,準(zhǔn)確率分別提高了12%、12%和13%。隨著參與評測的多詞串個數(shù)增加(最大達(dá)到1 000),C-value和MCC-value的方法都有明顯下降。

        表4 利用評測方法1得到的實驗結(jié)果

        表5給出了使用評測方法2得到的實驗結(jié)果。在top-100級別上,準(zhǔn)確率由57%提高到68%,科技領(lǐng)域準(zhǔn)確率由51%提高到65%,而旅行領(lǐng)域準(zhǔn)確率由58%提高到68%。在這三個領(lǐng)域中,準(zhǔn)確率分別提高了11%、14%和10%。兩種評測方法都表明:MCC-value方法較于傳統(tǒng)C-value方法有顯著提高,充分驗證了MCC-value方法的有效性。

        表5 利用評測方法2得到的實驗結(jié)果

        3.4 實驗結(jié)果分析

        MCC-value方法,考慮了多詞串在不同領(lǐng)域的分布情況,有效地降低了模糊度較高的多詞串對于抽取結(jié)果的影響,而使用MCC-value方法,加入了多詞串在不同領(lǐng)域的分布信息,有效地減小了這類模糊多詞串對抽取結(jié)果的影響。

        在多詞串抽取結(jié)果中,還發(fā)現(xiàn)一些錯誤的多詞串抽取結(jié)果,例如:汽車領(lǐng)域中的“鉛 汽油”、“廂 轎車”,這樣的多詞串在C-value方法的輸出列表和MCC-value方法的輸出列表中都排在很靠前的位置,但卻不是完整的多詞串,不能作為正確的抽取結(jié)果。包含“鉛 汽油”、“廂 轎車”抽取結(jié)果的正確的多詞串是“無 鉛 汽油”、“兩 廂 轎車”這樣的多詞串,而它們卻不符合詞性過濾規(guī)則,計算C-value值時,“鉛 汽油”等多詞串就會作為不被其他更長的串包含的情況處理,所以影響了抽取結(jié)果的準(zhǔn)確率。那么詞性規(guī)則的選擇,也一定程度上影響了系統(tǒng)的性能。

        4 結(jié)論及未來工作

        本文首先用C-value的方法對多個領(lǐng)域的文本進(jìn)行多詞串自動抽取,然后將多詞串在不同領(lǐng)域的分布信息加入到C-value方法中,提出了一種多類別C-value(MCC-value)方法,進(jìn)行領(lǐng)域多詞串的自動抽取。

        最后在汽車、科技和旅行三個領(lǐng)域的數(shù)據(jù)上進(jìn)行實驗,較于傳統(tǒng)的C-value方法性能有著明顯的提高。實驗結(jié)果表明,此方法在領(lǐng)域多詞串自動抽取的任務(wù)中是非常有效的。

        下一步工作有:1)進(jìn)一步研究詞性過濾規(guī)則,尋找更適合于多詞串抽取任務(wù)的詞性規(guī)則; 2)將MCC-value的方法應(yīng)用到領(lǐng)域知識庫的構(gòu)建工作中,為領(lǐng)域知識庫的構(gòu)建提供多詞串信息; 3)將模糊度的概念引入到其他多詞串抽取方法中,比較其在其他方法中的效果。

        [1] 段建勇.多詞表達(dá)抽取及其應(yīng)用[D].上海交通大學(xué)博士論文,2007.9.

        [2] Sophia Ananiadou.Towards a Methodology for Automatic Term Recognition[D].University of Manchester Institute of Science and Technology, 1988.

        [3] Sophia Ananiadou.A methodology for automatic term recognition[C]//Proceedings of the 15th International Conference on Computational Linguistics. Morristown,NJ,USA:Association for Computational Linguistics,1994:1034-1038.

        [4] Didier Bourigault.Surface grammatical analysis for the extraction of terminological noun phrases[C]//Proceedings of the 14th International Conference on Computational Lingustics.Morristown,NJ,USA:Association for Computational Linguistics,1992:977-981.

        [5] Ido Dagan,Ken Church.Termight: Identifying and translating technical terminology[C]//Proceedings of the 7th Conference of the European Chapter of the Association for Computational Linguistics.Morristown,NJ,USA:Association for Computational Linguistics,1994:34-40.

        [6] Beatrice Daille,Eric Gaussier,Jean-Marc Lange.Towards automatic extraction of monolingual and bilingual terminology[C]//Proceedings of the 15th International Conference on Computational Linguistics.Morristown,NJ,USA:Association for Computational Linguistics,1994:515-521.

        [7] John S. Justeson,Slava M. Katz.Technical terminology: some linguistic properties and an algorithm for identication in text[J]. Natural Language Engineering, 1(1):9-27, 1995.

        [8] Chantal Enguehard,Laurent Pantera. Automatic natural acquisition of a terminology[J]. Journal of Quantitative Linguistics,1994,2(1):27-32.

        [9] KT Frantzi,S Ananiadou.The C-Value/NCValue domain independent method for multi-word term extraction[J]. Journal of Natural Language Processing,1999,6(3):145-179.

        [10] 朱靖波,陳文亮.基于領(lǐng)域知識的文本分類[J].東北大學(xué)學(xué)報,2005,26(8):733-735.

        猜你喜歡
        詞串評測列表
        巧用列表來推理
        學(xué)習(xí)運用列表法
        次時代主機微軟XSX全方位評測(下)
        次時代主機微軟XSX全方位評測(上)
        擴(kuò)列吧
        靈動的詞串,寫話的紐帶
        攻坡新利器,TOKEN VENTOUS評測
        報紙新聞標(biāo)題中的“熱詞群”和“熱詞串”
        新聞傳播(2018年15期)2018-09-18 03:19:58
        Canyon Ultimate CF SLX 8.0 DI2評測
        中國自行車(2017年1期)2017-04-16 02:54:06
        美語口語詞串You Know What探析
        中文人妻av大区中文不卡| 亚洲中文字幕诱惑第一页| 国产亚洲精品一品二品| 亚洲国产精品久久久久久无码| 精品无码一区在线观看| 亚洲Va中文字幕久久无码一区| 国产成人亚洲欧美三区综合| 日本高清一区在线你懂得| av在线不卡免费中文网| 国产做无码视频在线观看| 狼色精品人妻在线视频| 色综合色综合久久综合频道| 国产伦理一区二区久久精品| 久久无码字幕中文久久无码 | 抽搐一进一出试看60秒体验区| 亚洲中出视频| 一区二区三区四区黄色av网站| 亚洲乱亚洲乱妇无码麻豆| 在线观看免费a∨网站| 少妇一级aa一区二区三区片| 国产女优一区在线观看| av 日韩 人妻 黑人 综合 无码| 国产精品精品| 日本熟妇免费一区二区三区| 午夜无码一区二区三区在线观看| 无码人妻黑人中文字幕| 天天爽夜夜爽人人爽曰喷水| 成人无码网www在线观看| 加勒比亚洲视频在线播放| 亚洲综合偷自成人网第页色| 无码人妻久久一区二区三区免费| 国产成人无码av在线播放dvd| 午夜无码熟熟妇丰满人妻| 精彩视频在线观看一区二区三区| 日韩aⅴ人妻无码一区二区| 伊人22综合| 精品国产一区二区三区九一色| 日日噜噜夜夜狠狠va视频v| 乌克兰少妇xxxx做受6| 黑丝美女喷水在线观看| 亚洲av调教捆绑一区二区三区|