亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知網(wǎng)的中文結(jié)構(gòu)排歧工具
        ——VXY

        2010-06-05 09:02:04郝長(zhǎng)伶董振東
        中文信息學(xué)報(bào) 2010年1期
        關(guān)鍵詞:歧義義項(xiàng)語(yǔ)義

        董 強(qiáng),郝長(zhǎng)伶,董振東

        (加拿大智達(dá)有限公司,蒙特利爾,加拿大)

        1 引言

        排除歧義是語(yǔ)言信息處理或計(jì)算語(yǔ)言學(xué)研究中的關(guān)鍵問(wèn)題。中文里的V-X-de-Y歧義性結(jié)構(gòu)在真實(shí)文本中是非常普遍存在的。我們?cè)?jīng)統(tǒng)計(jì)過(guò)一篇不到4頁(yè)的短文,里面竟有31個(gè)這樣的結(jié)構(gòu)。 我們將31個(gè)含有這樣結(jié)構(gòu)的句子,分別輸入兩個(gè)不同類(lèi)型的機(jī)器翻譯系統(tǒng),可以清楚地看到這種歧義判別的正確與否會(huì)對(duì)自動(dòng)翻譯產(chǎn)生非常嚴(yán)重的影響。這個(gè)問(wèn)題不論采取何種機(jī)譯策略都是繞不過(guò)去的。讀者不妨也可以試試。

        我們研究和開(kāi)發(fā)中文的排歧工具的目的有兩個(gè),一是用來(lái)檢驗(yàn)知網(wǎng)的理論與方法的正確性以及數(shù)據(jù)的規(guī)模和可靠性;二是檢驗(yàn)我們對(duì)于中文處理的觀點(diǎn)和方法,看看是否能夠?qū)⒅W(wǎng)有效地投入實(shí)用?;谶@樣的考慮我們除了不斷改進(jìn)、強(qiáng)化和提升知網(wǎng)知識(shí)庫(kù)性能外,還利用知網(wǎng)先后開(kāi)發(fā)了可同時(shí)適用中英兩種語(yǔ)言的概念相關(guān)性計(jì)算器(Concept Relevance Calculator, CRC)、概念相似度計(jì)算器(Concept Similarity Measure, CSM)等來(lái)作為排歧工具的預(yù)備性資源。 近一年來(lái)我們開(kāi)發(fā)完成了一個(gè)稱(chēng)之為基于知網(wǎng)的中文句法結(jié)構(gòu)排歧工具(HowNet-based disambiguator of Chinese syntactic structures)。它被簡(jiǎn)稱(chēng)為VXY。

        2 VXY

        2.1 VXY要解決的歧義

        VXY排歧工具所要排除的是中文里十分常見(jiàn)的句法結(jié)構(gòu)歧義,即很多學(xué)者曾經(jīng)討論過(guò)的V+NP1+的+NP2 (削蘋(píng)果的皮/削蘋(píng)果的刀)。中文的V+NP1+的+NP2結(jié)構(gòu)歧義的關(guān)鍵點(diǎn)是:V的管轄,即在這類(lèi)結(jié)構(gòu)里V管轄的是NP1呢,還是NP2?與其他學(xué)者所討論的有所不同,我們要解決的是更加復(fù)雜和多樣的歧義,即在他們所列出的NP1和NP2的位置上可以是其他詞性的詞語(yǔ),如表1所示。 正因如此,我們更確切地命名我們的工具為:V-X-de-Y排歧工具,簡(jiǎn)稱(chēng)為VXY。

        表1 VXY的各種類(lèi)型舉例

        我們把V管轄的是Y的,定為type1;V管轄的是X的,則定為type2;如果在判別中某一短語(yǔ)既能適用某條type1規(guī)則,又能適用某條type2規(guī)則,那么就被判定為type3,也即它仍然存在歧義,如“罵鄰居的孩子”,這樣的歧義結(jié)構(gòu)應(yīng)該需要更大的語(yǔ)境來(lái)解決。

        需要說(shuō)明一點(diǎn),V+NP1+的+NP2的管轄關(guān)系,還可能包括V處于被管轄的關(guān)系,例如“失事飛機(jī)的殘骸”、“進(jìn)口商品的關(guān)稅”、“遇害老人的親屬”等。然而我們不會(huì)利用VXY來(lái)解決這樣的歧義性結(jié)構(gòu)。這類(lèi)歧義會(huì)利用我們正在開(kāi)發(fā)的其他判別工具解決。

        2.2 VXY的組成及其功能

        VXY主要由以下三個(gè)部分組成:

        (a) 判別器:它的主要功能是調(diào)用各種查詢(xún)和匹配函數(shù),進(jìn)行詞典訪問(wèn)、信息提取、規(guī)則匹配。用戶(hù)填入的詞語(yǔ)是它的輸入;被判別的結(jié)果是它的輸出。

        (b) 規(guī)則庫(kù):存有判別確定V對(duì)于X或者Y的管轄關(guān)系的規(guī)則。到目前為止,VXY規(guī)則庫(kù)的規(guī)則總數(shù)約200條。

        (c) VXY用戶(hù)界面:界面顯示四個(gè)部分:第一行列出V、X、Y測(cè)試短語(yǔ)輸入框;第二部分顯示判別器所選定的V、X、Y各自的DEF,即義項(xiàng)的概念定義;第三部分列出判別中所選用的規(guī)則;第四行給出了判別的最終結(jié)果。這個(gè)界面是供用戶(hù)測(cè)試的工具,也是供維護(hù)者調(diào)試和修改的工具。如圖1所示。

        圖1 VXY判別工具界面

        特別要指出,實(shí)際上,整個(gè)知網(wǎng)也應(yīng)視為VXY的組成部分。VXY是完全基于知網(wǎng)的,它直接利用知網(wǎng)的全部資源,特別是知識(shí)詞典。與知網(wǎng)其他的意義計(jì)算工具一樣,知網(wǎng)的更新會(huì)引起VXY內(nèi)容上的改善或充實(shí),但不會(huì)帶來(lái)結(jié)構(gòu)上的負(fù)面影響。

        VXY的功能是對(duì)任意的VXY詞語(yǔ)組合結(jié)構(gòu)中的V對(duì)于X或者Y的管轄關(guān)系加以判別。判斷的條件是:(a)輸入的組合在意義上應(yīng)是合理的、真實(shí)的;(b)輸入的各個(gè)詞語(yǔ)是知網(wǎng)中所包含的。如前所述,判別的結(jié)果有三種:type1、type2 以及type3。

        2.3 VXY規(guī)則的表示

        每一條VXY規(guī)則包括如下幾個(gè)部分:(a)規(guī)則名,(b)序號(hào),(c)規(guī)則內(nèi)容。規(guī)則內(nèi)容由兩部分組成:(a)條件部分,(b)動(dòng)作部分。條件部分是VXY三元組:其中CW代表當(dāng)前輸入的V詞語(yǔ);R1代表X,即V右鄰的詞語(yǔ);R2代表Y,實(shí)際上是“的”后鄰的詞語(yǔ)。

        CW,R1和R2后面置于方括號(hào)[ ]中的是它們各自的語(yǔ)義內(nèi)容,它們由知網(wǎng)的意義計(jì)算函數(shù)及其賦值所構(gòu)成,三者之間由“;”分割,表示“和”。其中動(dòng)作部分由“$”引導(dǎo),@表示“調(diào)用”動(dòng)作類(lèi)型。每條規(guī)則均以句號(hào)結(jié)束。例如:

        VXY_TYPE_2 6360 CW[*DEF_HinDic={act|行動(dòng)}];R1[*DEF_HinDic={entity|實(shí)體}]; R2[*DEF_HinDic={method|方法}/{standpoint|立場(chǎng)}]$@type(2).

        2.4 VXY的意義計(jì)算函數(shù)

        如前所述,VXY規(guī)則采用了知網(wǎng)的意義計(jì)算函數(shù)。這些函數(shù)是知網(wǎng)通用的,應(yīng)用于各個(gè)基于知網(wǎng)的意義計(jì)算工具,而并非是VXY所專(zhuān)用的。VXY現(xiàn)今采用如下函數(shù):DEF_HinDic,DEF_inDic,DEF_HostInDic,DEF_WinDic,它們的操作符分別是:=,-,>。

        下面一條規(guī)則,是在判別“挫傷孩子的自尊心”時(shí),匹配成功的規(guī)則:

        VXY_TYPE_12490CW[*DEF_HinDic={act|行動(dòng)}];R1[*DEF_HinDic={human|人}];

        R2[*DEF_HinDic={mental|精神}]$@type(1).

        根據(jù)知網(wǎng),CW詞語(yǔ)“挫傷”有如下兩個(gè)義項(xiàng),它們的DEF分別是:{wounded|受傷}和{discourage|潑冷水}。其中后者的類(lèi)義原的上位在知網(wǎng)的分類(lèi)體系(taxonomy)中表示為:

        event|事件

        ==>act|行動(dòng)

        ==>ActSpecific|實(shí)動(dòng)

        ==>AlterSpecific|實(shí)變

        ==>AlterState|變狀態(tài)

        ==>AlterMental|變精神

        ==>AlterEmotion|變情感

        ==>excite|感動(dòng)

        ==>discourage|潑冷水

        這樣,CW滿(mǎn)足了規(guī)則的條件:{act|行動(dòng)}。

        R1詞語(yǔ)“孩子”有3個(gè)義項(xiàng),其類(lèi)義原的上位在知網(wǎng)的分類(lèi)體系(taxonomy)中都是:

        entity|實(shí)體

        ==>thing|萬(wàn)物

        ==>physical|物質(zhì)

        ==>animate|生物

        ==>AnimalHuman|動(dòng)物

        ==>human|人

        于是R1也滿(mǎn)足了規(guī)則的條件:{human|人}。最后R2,其詞語(yǔ)“自尊心”的類(lèi)義原的上位在知網(wǎng)的分類(lèi)體系(taxonomy)中是:

        entity|實(shí)體

        ==>thing|萬(wàn)物

        ==>mental|精神

        ==>emotion|情感

        也滿(mǎn)足了規(guī)則的條件:{mental|精神}。因此歧義結(jié)構(gòu)“挫傷孩子的自尊心”被判定為type1,即V(“挫傷”)管轄的是NP2(“自尊心”)。

        應(yīng)注意,規(guī)則的意義計(jì)算同時(shí)兼有詞語(yǔ)義項(xiàng)選擇的功用。如前面CW本來(lái)是有兩個(gè)義項(xiàng),為何沒(méi)有選中{wounded|受傷}這一義項(xiàng)呢?那是因?yàn)樵摿x項(xiàng)類(lèi)義原的上位在知網(wǎng)的分類(lèi)體系(taxonomy)中是:

        event|事件

        ==>static|靜態(tài)

        ==>state|狀態(tài)

        ==>StatePhysical|物理狀態(tài)

        ==>change|變

        ==>BeBad|衰變

        ==>SufferFrom|罹患

        ==>ill|病態(tài)

        ==>wounded|受傷

        這樣就沒(méi)有一個(gè)上位可以滿(mǎn)足規(guī)則的條件的,而被摒棄了。

        3 討論

        第一,歧義是語(yǔ)言信息處理的關(guān)鍵問(wèn)題。歧義有種種不同的類(lèi)型及其不同的特點(diǎn),解決歧義也就應(yīng)該有不同的策略和方法。本文所介紹的中文排歧工具是專(zhuān)門(mén)對(duì)付中文里普遍存在的一種結(jié)構(gòu)性或管轄性歧義的。這類(lèi)歧義的一個(gè)重要特點(diǎn)在于表面上似乎是因?yàn)樵~類(lèi)分布產(chǎn)生的歧義(如V+N(V)+的+N(A/V)),但實(shí)際上它是高度語(yǔ)義依賴(lài)的,是由內(nèi)在的三元的語(yǔ)義約束決定的,是V對(duì)于X或Y的強(qiáng)支配性決定的。請(qǐng)比較下面一組例子:

        該組的“V+N+的+N”的前一詞語(yǔ)詞性均為adj(“新穎的”、“容易”),但其中的第一例為type2,而第二例卻為type1。排除這種詞性組合的結(jié)構(gòu)歧義主要是要依靠、或也只能是依靠詞語(yǔ)本身的語(yǔ)義。只有當(dāng)其自身的語(yǔ)義不可能解決時(shí)(例如“咬死獵人的狗”),才需求助于更大的語(yǔ)境。

        至于詞匯意義的歧義,雖然也是高語(yǔ)義依賴(lài)的,但它們?cè)谛再|(zhì)上是完全另外一種類(lèi)型。因此我們將采用另外的策略和方法。知網(wǎng)已經(jīng)為此準(zhǔn)備好了三種資源:除前已提及的概念相關(guān)性計(jì)算器(Concept Relevance Calculator, CRC)、概念相似度計(jì)算器(Concept Similarity Measure, CSM)外,更重要的是知網(wǎng)的知識(shí)詞典中為多義詞語(yǔ)給出的實(shí)例。試以詞語(yǔ)“材料”為例,它的三個(gè)義項(xiàng)在知網(wǎng)的知識(shí)詞典中分別列出如下實(shí)例:

        (1) DEF={InfoElement|信息元素},(英語(yǔ)=data)

        實(shí)例:收集~,鮮活的~,熟悉~,調(diào)查~,整理~,給~分類(lèi)編目,手頭的~,掌握~,考研~,又發(fā)給我們一堆學(xué)習(xí)~,參考~,第一手~,上報(bào)的~中有記載的,一本~

        (2) {Quality|質(zhì)量:host={human|人}},(英語(yǔ)=makings)

        實(shí)例:唱歌的~,跳舞的~,不是干這的~,上大學(xué)的~

        (3) DEF={material|材料},(英語(yǔ)=material)

        實(shí)例:建筑~,裝修~,買(mǎi)~,家裝~,航天飛機(jī)外殼是用什么~做的,房屋~,納米~,~科學(xué)

        我們相信將上述三種資源有機(jī)地結(jié)合使用,是實(shí)用性地解決詞匯多義的有效途徑。

        第二,進(jìn)一步討論關(guān)于VXY工具的規(guī)則。首先是規(guī)則的依據(jù)。知網(wǎng)的“事件語(yǔ)義角色框架”和“語(yǔ)義角色與典型演員”是規(guī)則的基本依據(jù)。知網(wǎng)的這兩個(gè)文件描述了語(yǔ)義角色與典型演員的強(qiáng)支配關(guān)系,例如:

        “娶” 對(duì)于其possession角色:“人,女性”的強(qiáng)支配性

        “開(kāi)辦”對(duì)于其PatientProduct角色:“機(jī)構(gòu)”的強(qiáng)支配性

        “醫(yī)治”對(duì)于其content角色:“疾病”的強(qiáng)支配性

        “買(mǎi)” 對(duì)于其cost 角色:“錢(qián)”的強(qiáng)支配性

        其次是規(guī)則對(duì)于詞語(yǔ)的義項(xiàng)的選擇性。當(dāng)VXY三個(gè)詞語(yǔ)的任何一個(gè)有多個(gè)義項(xiàng)時(shí),規(guī)則有能力進(jìn)行自動(dòng)的選擇,這是很重要的機(jī)制。再者是規(guī)則的自動(dòng)的上下位查詢(xún)的機(jī)制。

        第三,我們應(yīng)該采取怎樣的策略和方法來(lái)解決歧義問(wèn)題呢?現(xiàn)在我們看到有兩類(lèi)做法,一類(lèi)是本質(zhì)上應(yīng)屬于語(yǔ)言學(xué)本體研究的,或者屬于我們稱(chēng)之為無(wú)計(jì)算的“計(jì)算語(yǔ)言學(xué)”(Computational Linguistics without Computation)的方法;另一類(lèi)是眼下尚流行的“三部曲”(語(yǔ)料標(biāo)注、現(xiàn)成的算法、應(yīng)試性的評(píng)測(cè))方法。這兩種方法都不是我們所贊成的。我們主張的是:對(duì)于漢語(yǔ)的語(yǔ)言難點(diǎn)應(yīng)采取“定點(diǎn)清除”的策略,不同類(lèi)型的歧義應(yīng)采用不同的方法去解決, 我們正在努力開(kāi)發(fā)不同類(lèi)型的排歧插件,供用戶(hù)選擇、嵌入用戶(hù)自己的語(yǔ)言信息處理系統(tǒng),如文本挖掘、機(jī)器翻譯系統(tǒng)等。 換句話(huà)說(shuō),我們要的是可以經(jīng)得起任意考核的排歧系統(tǒng),而不是只能演示或評(píng)測(cè)幾十個(gè)多義詞的“玩具”。

        4 今后的工作

        我們現(xiàn)已將VXY上傳至http://hownet.kookge.com,我們將通過(guò)讀者和用戶(hù)的測(cè)試反饋來(lái)改進(jìn)和完善它。我們真心地愿意看到有人采用其他的方法(如詞性標(biāo)注下的“三部曲”)或其他的資源(如Chinese WordNet等)來(lái)做出類(lèi)似的排歧工具并進(jìn)行開(kāi)放性的考核,我們相信這樣的比較才會(huì)更有意義。

        如今,我們已開(kāi)始開(kāi)發(fā)新的中文排歧工具,如VN、NV工具,用以解決諸如“醫(yī)治疾病”/ “走私集團(tuán)”,“太空行走”/ “群眾抱怨”等管轄關(guān)系歧義。同時(shí)我們通過(guò)我們正在研發(fā)的基于知網(wǎng)的英中機(jī)器翻譯系統(tǒng),開(kāi)發(fā)英語(yǔ)的排歧工具。最后,我們?cè)敢馀c其他機(jī)構(gòu)合作共同開(kāi)發(fā)更多的實(shí)用的排歧工具。

        [1] Zhendong Dong, Qian Dong, HowNet and the Computation of Meaning[M]. Singapore World Scientific, 2006.

        [2] 馮志偉. 自然語(yǔ)言的計(jì)算機(jī)處理[M].上海:上海外語(yǔ)教育出版社,1996.

        [3] 馮志偉.論歧義結(jié)構(gòu)的潛在性[J].中文信息學(xué)報(bào),1995,9(4):14-24.

        [4] 苑春法,黃錦輝,等.基于語(yǔ)義知識(shí)的漢語(yǔ)句法結(jié)構(gòu)排歧[J].中文信息學(xué)報(bào),1999,13(1):1-8.

        [5] 張克亮.基于HNC理論的句法結(jié)構(gòu)歧義消解[J].中文信息學(xué)報(bào),2004,18(6):43-52.

        附錄A

        1. 關(guān)于建議設(shè)立“漢語(yǔ)句典”課題的芻議 V設(shè)立課題的芻議

        2. 難以打開(kāi)局面的看法,的確反映了很多人的憂(yōu)慮 A打開(kāi)局面的看法+反映很多人的憂(yōu)慮

        3. 較為新穎的基于語(yǔ)料庫(kù)的統(tǒng)計(jì)分析方法以外 A基于語(yǔ)料庫(kù)的方法

        4. 那是值得研究的問(wèn)題 V1值得研究的問(wèn)題

        5. 少數(shù)人期待有關(guān)自然語(yǔ)言的“日心說(shuō)”的出現(xiàn) N期待日心說(shuō)的出現(xiàn) (1)

        6. 目前研究自然語(yǔ)言處理的方法好比托勒密的理論 N研究語(yǔ)言處理的方法

        7. 堅(jiān)持這種扭曲的理論的結(jié)果是……。 堅(jiān)持理論的結(jié)果V

        8. 兒童學(xué)習(xí)自然語(yǔ)言的過(guò)程 N學(xué)習(xí)自然語(yǔ)言的過(guò)程

        9. 要是我們把觀察和思考問(wèn)題的角度變換一下 P思考問(wèn)題的角度V

        10. 即采用適合計(jì)算機(jī)的特點(diǎn)的方法 V適合計(jì)算機(jī)的特點(diǎn) (1)

        11. 可以用一套形式語(yǔ)法系統(tǒng)來(lái)描述是這種方法的基石 V是方法的基石 (1)

        12. 也是處理這種語(yǔ)言的切入點(diǎn) V1處理語(yǔ)言的切入點(diǎn)

        13. 支撐自然語(yǔ)言大廈的主要支柱可能不是 支撐大廈的支柱V

        14. 我們仔細(xì)觀察小孩子學(xué)說(shuō)話(huà)的過(guò)程 N學(xué)說(shuō)話(huà)的過(guò)程

        15. 一個(gè)一個(gè)地掌握各種句模的用法 Ad掌握句模的用法(1)

        16. 從而提高他們的說(shuō)話(huà)和理解能力 Ad提高他們的能力 (1)

        17. 尤其是在研究別人的言語(yǔ) Ad研究別人的言語(yǔ) (1)

        18. 才打破了不能開(kāi)口的局面 Ad打破開(kāi)口的局面(1)

        19. 我們也有教外國(guó)人的《漢語(yǔ)400句》了 V教外國(guó)人的漢語(yǔ)400句

        20. 以上的說(shuō)法并不是完全否認(rèn)“語(yǔ)法”的作用 Ad否認(rèn)“語(yǔ)法”的作用(1)

        21. 舊句模的消亡過(guò)程受到全社會(huì)成員的參與 N受到成員的參與(1)

        22. 《漢語(yǔ)400句》就是一個(gè)《1級(jí)漢語(yǔ)句典》的雛形 N是句典的雛形(1)

        23. 類(lèi)似于人類(lèi)自己掌握自然語(yǔ)言的過(guò)程 N掌握自然語(yǔ)言的過(guò)程

        24. 容易考核工作的實(shí)際進(jìn)展 A考核工作的進(jìn)展(1)

        25. 容易判斷自己工作的質(zhì)量 A判斷工作的質(zhì)量(1)

        26. 我提出上述建立《句典》的建議 N建立句典的建議

        27. 任一語(yǔ)句是否屬于本句型的算法 N屬于句型的算法(1)

        28. 而這個(gè)課題所要解決的是面向計(jì)算機(jī)的句典 V1面向計(jì)算機(jī)的句典

        29. 根本無(wú)法納入我們心目中的《句典》中 Aux納入心目中的句典(1)

        30. 以上是個(gè)人的淺見(jiàn) A是個(gè)人的淺見(jiàn)(1)

        猜你喜歡
        歧義義項(xiàng)語(yǔ)義
        “玄”“懸”二字含義不同
        鄉(xiāng)音(2024年12期)2024-12-31 00:00:00
        語(yǔ)言與語(yǔ)義
        eUCP條款歧義剖析
        小心兩用成語(yǔ)中的冷義項(xiàng)
        English Jokes: Homonyms
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        “那么大”的語(yǔ)義模糊與歧義分析
        兩用成語(yǔ)中的冷義項(xiàng)
        知識(shí)窗(2015年1期)2015-05-14 09:08:17
        認(rèn)知范疇模糊與語(yǔ)義模糊
        Enhanced Precision
        Beijing Review(2012年37期)2012-10-16 02:24:10
        久久久中文字幕日韩精品| 好爽受不了了要高潮了av| 色婷婷丁香综合激情| 开心五月激情五月天天五月五月天| 中文字幕 亚洲精品 第1页| 亚洲狠狠婷婷综合久久久久图片| 男人天堂免费视频| 国产日产免费在线视频| 国产亚洲人成在线观看| 国产裸体舞一区二区三区| 欧美午夜刺激影院| 天堂av在线免费播放| 丰满少妇被啪啪到高潮迷轩| 怡红院av一区二区三区| 亚洲网站地址一地址二| 日本一区二区三区在线播放| 国产高潮流白浆视频在线观看| 亚欧中文字幕久久精品无码| 怡春院欧美一区二区三区免费| 日本啪啪一区二区三区| 噜噜中文字幕一区二区| 成人国产精品一区二区视频| 可以免费在线看黄的网站| 中文字幕精品乱码一区| 人妻少妇中文字幕在线| 中国凸偷窥xxxx自由视频妇科| 99热成人精品国产免| 一区二区精品天堂亚洲av| 国产精品538一区二区在线| 护士奶头又白又大又好摸视频| 日本护士一区二区三区高清热线| 久草视频在线手机免费看 | 中文人妻无码一区二区三区| 蜜桃码一区二区三区在线观看| 国产大片内射1区2区| 欧美白人最猛性xxxxx| 在线观看极品裸体淫片av| 中文字幕av高清人妻| 国产97在线 | 免费| 久久久久久久久中文字幕| 亚洲一区二区刺激的视频|