亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語義分類的比較句識(shí)別與比較要素抽取研究

        2014-10-15 01:52:36周紅照侯明午滕永林
        中文信息學(xué)報(bào) 2014年3期
        關(guān)鍵詞:語義規(guī)則情感

        周紅照,侯明午,侯 敏,滕永林

        (中國傳媒大學(xué) 國家語言資源監(jiān)測與研究有聲媒體中心,北京100024)

        1 引言

        比較句是人們評價(jià)兩個(gè)或兩個(gè)以上事物之間優(yōu)劣或異同的一種常用表達(dá)方式。利用計(jì)算機(jī)自動(dòng)識(shí)別論壇、貼吧、微博、電子商務(wù)網(wǎng)站上用戶評論等領(lǐng)域的比較句,并進(jìn)一步抽取“比較主體、比較基準(zhǔn)、比較點(diǎn)、比較結(jié)果”四要素,具有現(xiàn)實(shí)實(shí)用價(jià)值,例如,可以幫助企業(yè)了解其產(chǎn)品相較于同類產(chǎn)品的優(yōu)勢與不足,更好地改進(jìn)生產(chǎn);可以為消費(fèi)者的購物選則提供參考;可以獲取公眾對影視劇、文學(xué)作品等的對比評價(jià)信息。

        2 比較句及其識(shí)別與要素抽取研究

        2.1 對比較句的認(rèn)識(shí)

        現(xiàn)代漢語表示比較的基本方式有三種:一是通過“比、不如、優(yōu)于”等比較詞,二是通過“沒有…好,和…一樣,跟…沒法比”等比較表達(dá)式,三是通過分句(句子)對舉或間接言語行為等方式(例如,H180在天上,索尼的在地下),句子只要具備以上任一特征,即可判定為比較句。比較詞和比較表達(dá)式可以合稱為比較標(biāo)記(M)。由于第三種情況是通過意合的方式表示比較,缺乏形式化的標(biāo)記,本文暫不做討論。

        作為一個(gè)范疇,比較具有四個(gè)要素:(1)比較主體,指在相比較的幾個(gè)事物中,說話人所論述的話題和焦點(diǎn);(2)比較基準(zhǔn),指對比較主體做出評價(jià)時(shí)所依據(jù)的參照對象;(3)比較點(diǎn),指比較主體與比較基準(zhǔn)進(jìn)行比較的屬性;(4)比較結(jié)果,指說話人對比較主體做出的評價(jià)。[1]例如,“索尼耳機(jī)比蘋果耳機(jī)音質(zhì)好”,比較主體是“索尼耳機(jī)”,比較基準(zhǔn)是“蘋果耳機(jī)”,比較點(diǎn)是“音質(zhì)”,比較結(jié)果是“好”。在比較句中,比較四要素以比較標(biāo)記為軸心展開分布,形成如下五元組:C(s)= <M,(X),(Y),(A),R>,其中,比較標(biāo)記M、比較結(jié)果R必定出現(xiàn),而比較主體X、比較基準(zhǔn)Y、比較點(diǎn)A可隱可現(xiàn),但一般來說,三者中至少出現(xiàn)一個(gè)。比較標(biāo)記的不同以及五元組出現(xiàn)的位置、次序、個(gè)數(shù)不同,就構(gòu)成不同的比較句類型。

        關(guān)于比較句的次范疇,語言學(xué)界尚存在一些爭議,爭議最大的是差比句的外延大小。和許多學(xué)者一樣,我們主張從語義的角度對比較句進(jìn)行分類,我們基本認(rèn)同黃小江[1]所做的分類,但從比較要素抽取的工程角度出發(fā),對其做了以下兩點(diǎn)調(diào)整:(1)將“極比”從“差比”范疇下獨(dú)立出來,上升為與平比、差比相并列的范疇;(2)將“差比”范疇下的“不同”次范疇歸入“平比”范疇。因“不同”指的是說話者認(rèn)為事物之間存在差異,但并沒有就孰好孰壞、孰優(yōu)孰劣進(jìn)行評價(jià),例如,“大陸和香港政治制度不同”,說話人對各個(gè)事物的情感傾向性是相同的,都是中性,這符合平比句比較主體、比較基準(zhǔn)情感傾向一致的特征。表1顯示了比較句的次范疇。

        表1 比較句次范疇

        2.2 漢語比較句識(shí)別與要素抽取的研究現(xiàn)狀及分析

        語言信息處理界以觀點(diǎn)挖掘?yàn)槟繕?biāo),對漢語比較句的識(shí)別與要素抽取做了一些研究。從已發(fā)表的成果看,大都采用“兩步走”的策略,第一步是從比較句、非比較句的混合文本中識(shí)別比較句,第二步是在第一步的基礎(chǔ)上抽取比較句的四要素。我們認(rèn)為,比較句和比較要素之間是一種“你中有我,我中有你”的共生關(guān)系,若一個(gè)句子是比較句,則至少具有五元組中三個(gè)比較元素;若一個(gè)句子具備了比較五元組中三個(gè)或三個(gè)以上的比較元素,則該句子必定為比較句,兩者互為充分必要條件。因此將比較句識(shí)別與比較要素抽取兩個(gè)任務(wù)合而為一不僅是可能的,也是必要的,有助于同步提高兩個(gè)任務(wù)的準(zhǔn)確率。

        比較句識(shí)別的方法目前主要有兩種:一是基于特征詞,吸收了語言學(xué)界對現(xiàn)代漢語比較詞的歸納(如文獻(xiàn)[2-5]),二是基于類序列規(guī)則(CSR),借鑒了語言學(xué)界對現(xiàn)代漢語比較句式的研究成果(如文獻(xiàn)[6-13]),同時(shí),通過觀察、分析真實(shí)語料,對原有內(nèi)容進(jìn)行了補(bǔ)充、修正。比較要素的抽取目前采用的方法有,在詞、詞性、位置組成的Baseline特征中融入語義、領(lǐng)域知識(shí)及啟發(fā)式規(guī)則特征,訓(xùn)練條件隨機(jī)場(CRF)模型進(jìn)行抽?。?4];采用CRF與規(guī)則相結(jié)合的方法抽取比較主體和比較基準(zhǔn),利用領(lǐng)域?qū)傩栽~典和情感詞典識(shí)別比較點(diǎn)和比較結(jié)果[15]。這些方法取得了一定效果,但也存在著不足:(1)有些句子并不是通過特征詞,而是通過比較表達(dá)式來表示比較,特征詞方法無法覆蓋這類情況;(2)句子中雖然有特征詞,但句子未必是比較句,例如,“差不多、最”分別是表示平比、極比時(shí)常用到的詞,但在句子“用了一天,發(fā)現(xiàn)信號很不錯(cuò)?!保昂眠M(jìn)行無線安全設(shè)置,防蹭網(wǎng)?!敝?,并不表示比較;(3)序列的長度難以確定。窗口過小不足以提取有意義的特征,窗口過大會(huì)出現(xiàn)很多噪聲;(4)對比較句的語言特點(diǎn)研究得不夠充分,規(guī)則需要細(xì)化、補(bǔ)充;(5)表示比較結(jié)果的詞除了是情感詞,還可以是大、小、高、低等兩重性的詞,或是由普通詞組合構(gòu)成的情感短語,例如,“有所提高、不能抗衡、沒什么優(yōu)勢、有比較大的差距”,對于這兩種情況當(dāng)前的研究涉及得比較少。我們認(rèn)為,根據(jù)比較句識(shí)別與要素抽取的實(shí)用化目的以及漢語比較句的語言特點(diǎn),基于語義分類來構(gòu)建詞典和規(guī)則庫,采用詞典與規(guī)則相結(jié)合的方法,可以彌補(bǔ)上面提到的幾點(diǎn)不足。

        3 基于語義分類的詞典系統(tǒng)構(gòu)建

        第四屆中文傾向性評測(COAE2012)設(shè)置了比較句識(shí)別與比較要素抽取的評測任務(wù),具體包含兩個(gè)子任務(wù):(1)從給定句子集合中,識(shí)別出哪些句子是比較句;(2)從識(shí)別出的比較句中,抽取出相應(yīng)的比較實(shí)體、實(shí)體要素以及相應(yīng)的情感傾向性。測試語料是電子、汽車領(lǐng)域的用戶評論。為順利完成這些任務(wù),需要構(gòu)建的詞典資源除了一般的分詞詞典,還應(yīng)包括:領(lǐng)域詞典、情感詞典、比較標(biāo)記詞典。

        3.1 領(lǐng)域詞典

        從應(yīng)用角度來說,企業(yè)和消費(fèi)者想要獲取的信息是用戶對產(chǎn)品及其屬性的評價(jià),不是其他內(nèi)容的評價(jià),如果單純依靠詞性、詞性序列、位置等特征,不加入領(lǐng)域知識(shí),難免會(huì)引入噪聲,因此,建立專門的領(lǐng)域詞典是非常必要的。

        根據(jù)語義內(nèi)容的不同,領(lǐng)域詞典由兩部下位詞典構(gòu)成:

        (1)產(chǎn)品名詞典。產(chǎn)品名在比較句中主要承擔(dān)比較主體和比較基準(zhǔn)這兩種要素。通過學(xué)習(xí)訓(xùn)練語料,我們總結(jié)出了八類不同特征的產(chǎn)品名:①品牌名,例如,微軟、蘋果、奧迪;②型號,例如,A780、5230、MX360;③品牌與型號的組合,例如,sonyEX088、諾基亞1280、沃爾沃S80;④產(chǎn)品類別名(有時(shí)可帶修飾語),例如,鼠標(biāo)、原裝耳機(jī)、有線鼠標(biāo)、4缸發(fā)動(dòng)機(jī);⑤品牌與產(chǎn)品類別的組合,例如,飛利浦耳機(jī)、IBM筆記本、伊蘭特車;⑥型號與產(chǎn)品類別的組合,例如,HD2硬件、E804耳機(jī)、小康K系;⑦普通名詞,例如,圖片、實(shí)體店、山寨貨、國際大品牌;⑧指代性詞語,例如,這款、其他、這個(gè)。在此基礎(chǔ)上我們又借助網(wǎng)絡(luò)資源,把從網(wǎng)上搜集來的汽車、電子兩個(gè)領(lǐng)域的產(chǎn)品名和產(chǎn)品屬性名加入詞典。同時(shí),將測試語料中用上述兩種方法沒有獲得的產(chǎn)品名和產(chǎn)品屬性名用人工的方式錄入詞典。

        (2)產(chǎn)品屬性詞典。產(chǎn)品屬性詞在比較句中主要承擔(dān)比較點(diǎn)這個(gè)要素,指的是附著于產(chǎn)品實(shí)體,表示產(chǎn)品某一部分或某方面性質(zhì)、特征或功能的詞。例如,外觀、價(jià)格、質(zhì)量、機(jī)身、座椅。(注:個(gè)別詞語兼有產(chǎn)品名、產(chǎn)品屬性兩種語義特征。)

        3.2 情感詞典

        在比較句,尤其是差比、極比句中,比較結(jié)果這一要素主要由情感因子承擔(dān)。記錄情感因子的詞典叫情感詞典。其中不僅要收錄情感詞,也要收錄由普通詞組合構(gòu)成的情感短語,例如,“不夠格、占地方、有點(diǎn)兒卡、根本沒法用、更具性價(jià)比”,這些短語中的詞單個(gè)拆開來看,是不具有情感傾向的,但組合在一起之后,就成為構(gòu)成觀點(diǎn)句的情感因子。根據(jù)語料特點(diǎn),情感詞典中還收錄了一些帶有明顯感情色彩的新詞語、網(wǎng)絡(luò)詞語以及口語詞,例如,“給力、坑爹、超贊、欠抽、不咋地、杠杠的”。情感詞典中的詞語根據(jù)語義極性分為正面、負(fù)面兩類。正面的標(biāo)記為po,取值在0和1之間,負(fù)面的標(biāo)記為ne,取值在-1和0之間。

        3.3 比較標(biāo)記詞典

        這部詞典主要收錄不同類別比較句,主要是平比和極比句中的比較標(biāo)記。例如,極比句標(biāo)記“最佳、最差、首屈一指、無與倫比”,平比句標(biāo)記“不相上下、可以媲美、一樣、差不多、沒啥區(qū)別”等。收錄的原則是詞典與規(guī)則的互動(dòng):如果該類詞語數(shù)量多,不便于在規(guī)則中枚舉,就收錄在標(biāo)記詞典中,給出特定標(biāo)記,方便規(guī)則的撰寫;如果該類詞語數(shù)量比較少,可以在規(guī)則中枚舉,就不收錄,直接在規(guī)則中寫出。

        4 基于語義分類的規(guī)則系統(tǒng)構(gòu)建

        不同的比較范疇,比較要素的抽取方法是不同的;同一范疇下的次范疇(即不同比較標(biāo)記的比較句),比較要素的抽取方法也存在差異;即便是針對某一特定標(biāo)記的比較句,由于比較主體、比較基準(zhǔn)、比較點(diǎn)三要素的隱現(xiàn)情況不同、數(shù)量不同、位置關(guān)系不同,規(guī)則的描述也相應(yīng)不同。因此,我們在對漢語比較句進(jìn)行語義分類的基礎(chǔ)上,構(gòu)建起比較句識(shí)別與比較要素抽取規(guī)則庫。

        4.1 漢語比較句的語義分類

        4.1.1 比較一級范疇

        4.1.1.1 平比

        平比指的是被比較對象的屬性相同或近似,或不同但沒有高下之分。平比句中,被比較對象數(shù)量≥2,屬性數(shù)量≥1。因此至少需要抽取兩組結(jié)果:<比較主體,比較點(diǎn),比較結(jié)果1>,<比較基準(zhǔn),比較點(diǎn),比較結(jié)果2>;且比較結(jié)果2=比較結(jié)果1。

        4.1.1.2 差比

        差比指的是被比較對象的屬性有高下、優(yōu)劣之分。差比句中,被比較對象數(shù)量≥2,屬性數(shù)量≥1。因此至少需要抽取兩組結(jié)果:<比較主體,比較點(diǎn),比較結(jié)果1>,<比較基準(zhǔn),比較點(diǎn),比較結(jié)果2>;且比較結(jié)果2= -(比較結(jié)果1)。

        4.1.1.3 極比

        極比指的是比較對象的屬性在某范圍內(nèi)是最優(yōu)或最劣的。其比較基準(zhǔn)往往是隱含的,例如,奔馳S是舒適性最好的車。因此極比句只需提取一組結(jié)果:<比較主體,比較點(diǎn),比較結(jié)果>。

        4.1.2 比較二級范疇

        差比、平比、極比由不同的下位范疇構(gòu)成,由于不同類型的比較標(biāo)記有著相應(yīng)的句法和語義結(jié)構(gòu),規(guī)則模式也就不一樣。

        4.1.2.1 差比

        相較于平比句和極比句,差比句的表達(dá)方式最為復(fù)雜多樣,其中使用率較高的比較標(biāo)記以及比較模式有以下六種:

        (1)X比 Y vl;(vl為情感標(biāo)記,下同)

        (2)X 沒(有)Y vl;

        (3)X和 Y相比vl;

        (4)相對于 X,Y vl;

        (5)X不如|優(yōu)于Y;

        (6)X和Y沒法比。

        其中(1)~(4)比較模式中比較標(biāo)記與情感因子是分離的,比較結(jié)果,即比較要素的情感極性由情感因子決定;(5)~(6)中比較標(biāo)記與情感因子是重合的,比較標(biāo)記就蘊(yùn)含了比較結(jié)果,兩個(gè)比較元素由同一個(gè)詞來充當(dāng)。值得注意的是一些比較標(biāo)記代表的是一個(gè)詞簇,例如,“不如”代表的詞簇有:不如|比不上|比不了|比不過|趕不上|敵不過|遜于|輸于|次于|遜色于|落后于等;“沒法比”代表的詞簇有:沒法比|沒的比|沒有的比|不能比|無法相比|差遠(yuǎn)了|有差距|差很多|差太多|差多了|差了點(diǎn)|差距很大|差距好大|有很大的出入|有很大差距|不能相提并論|有一定差距|不是一個(gè)檔次|不在一個(gè)檔次|不能抗衡|相差甚遠(yuǎn)等。

        4.1.2.2 平比

        平比有兩個(gè)下位范疇:范疇1表示相同或近似;范疇2表示不同。根據(jù)比較標(biāo)記不同,范疇1主要包括2個(gè)模式:

        (1)X(和)Y 差不多;(其中“和”可以省略)

        (2)X 和 Y 都vl。

        其中(1)評價(jià)主體和評價(jià)基準(zhǔn)的情感極性都是中性的;(2)評價(jià)主體和評價(jià)基準(zhǔn)都有或褒或貶的情感極性,而且相同。另外,比較標(biāo)記“差不多”也代表一個(gè)較大的詞簇:一個(gè)樣|沒差別|有一拼|沒差距|基本一致|完全一致|完全一樣|一模一樣|基本一樣|十分相像|沒啥區(qū)別|有得一拼|毫不遜色|差距不大|差別不大|相差不大|一個(gè)檔次|一個(gè)感覺|沒什么區(qū)別|沒什么差別|沒多大區(qū)別|沒多大差別|無大的差別|沒什么出入|基本上一樣|沒有太大區(qū)別|基本木有區(qū)別|沒有什么區(qū)別|沒有什么差別|沒有什么兩樣|差距幾乎沒有|差不到哪里去|沒有不同的地方|完全是一回事|看不出有什么差別|看不出有多大差別等。

        范疇2也包括兩個(gè)比較模式:

        (6)X和Y不同;

        (7)X不同于 Y。

        需要注意的是,在實(shí)際話語中,范疇2經(jīng)常會(huì)在語義上進(jìn)一步延展,使句子由平比句轉(zhuǎn)化為差比句,例如,捷達(dá)和桑塔納的價(jià)格不同,捷達(dá)要便宜一些。

        比較標(biāo)記“不同”也代表一個(gè)詞簇:不同|不一樣|不太一樣|有區(qū)別|有差別|有所不同|略有不同|略有區(qū)別|略有差別|有點(diǎn)差異|差別好大|區(qū)別好大|截然不同|大不相同等。

        4.1.2.3 極比

        關(guān)于極比,最常用的比較模式是:

        (1)X 最vl

        (2)X首屈一指|無與倫比|第一|佼佼者|無人能敵。

        4.1.3 比較三級范疇

        即便是某一具體的比較標(biāo)記,由于比較主體、比較基準(zhǔn)、比較點(diǎn)三個(gè)要素隱現(xiàn)不同、出現(xiàn)數(shù)量不同、位置關(guān)系不同,也需要用不同的規(guī)則形式進(jìn)行描述。

        以“比字句”為例。比較五元素的排列組合可以有七種形式,根據(jù)復(fù)雜層級,由低到高排列如下(X代表比較主體,Y代表比較基準(zhǔn),A代表比較點(diǎn),R代表比較結(jié)果):

        (1)比+Y+R (只出現(xiàn)1個(gè),只能是Y)

        (2)X+比+Y+R;

        (3)A+比+Y+R;

        (4)比+Y+A+R;

        (5)X+A+比+Y+R;

        (6)A+X+比+Y+R;

        (7)X+比+Y+A+R。

        其中,X、Y、A的具體個(gè)數(shù)可以是一個(gè),也可以是兩個(gè)或兩個(gè)以上,例如,(2)可以擴(kuò)展為X1+X2+比+Y1+Y2+R。此外,如果“比”字前面出現(xiàn)“不、不可能”等否定詞,比較主體的情感極性要變?yōu)樨?fù)的R,比較基準(zhǔn)的情感極性變?yōu)檎腞。

        每一個(gè)比較二級范疇都包含這樣或多或少的一組規(guī)則。

        4.2 規(guī)則系統(tǒng)構(gòu)建

        本系統(tǒng)的規(guī)則庫包括兩個(gè)子庫:一個(gè)是短語及句子規(guī)則庫,主要解決句子情感度的計(jì)算問題,另一個(gè)是比較句識(shí)別與比較要素提取規(guī)則庫,專門解決比較句識(shí)別及比較要素抽取問題。本文主要介紹的是后者。

        比較句識(shí)別與比較要素提取規(guī)則庫是上述漢語比較句語義分類體系的映射,包含“規(guī)則群-規(guī)則簇-規(guī)則”三個(gè)層級,分別映射“比較一級范疇-比較二級范疇-比較三級范疇”。具體來說,規(guī)則庫包含差比、平比、極比三個(gè)規(guī)則群,每一個(gè)規(guī)則群又包含許多規(guī)則簇,例如,差比規(guī)則群包含“X比Yvl”“X不如/優(yōu)于Y”“X和Y沒法比”等規(guī)則簇,每一規(guī)則簇又包含數(shù)量不等的規(guī)則。規(guī)則庫的功能是將比較句識(shí)別與比較要素抽取合而為一完成。規(guī)則的簡化形式如下例所示:

        其中,“=”左部表示匹配條件,“=”右部表示識(shí)別及提取結(jié)果。規(guī)則左部中的“+”表示項(xiàng)與項(xiàng)之間的分隔,“*/nq”表示句子中出現(xiàn)的任意產(chǎn)品名,斜線前的“*”表示任意具體詞語,是變量,斜線后的“nq”是產(chǎn)品名的標(biāo)記;“和”與“沒法比”是比較標(biāo)記,規(guī)則左部的含義是:句子中如果有一個(gè)產(chǎn)品名,后跟一個(gè)“和”,再后跟一個(gè)產(chǎn)品名,后面是“沒法比”,那么匹配成功,就可以執(zhí)行等號右部的操作。規(guī)則右部的[B,c]表示滿足規(guī)則左部匹配條件的句子為比較句,且是差比句;N1[bs]表示規(guī)則左部的第1項(xiàng)為比較主體;N3[bo]表示規(guī)則左部的第3項(xiàng)為比較基準(zhǔn);最后的bs:-1表示給比較主體的情感傾向賦值“-1”。當(dāng)然,在具體的規(guī)則中,我們還設(shè)置了“或”“非”“可有可無”“任意越過”等函數(shù),以增強(qiáng)規(guī)則的概括力和解釋力。

        規(guī)則庫中的規(guī)則不是雜亂無章的,應(yīng)遵循先后次序,基本的順序原則是:具有包含關(guān)系的規(guī)則簇,包含規(guī)則簇在前,被包含規(guī)則簇在后;同一規(guī)則簇下的規(guī)則,否定性質(zhì)的在前,肯定性質(zhì)的在后,約束條件多的在前,約束條件少的在后,特殊情況的在前,共性的在后,以保證獲得最大限度的匹配。

        5 系統(tǒng)工作流程

        基于上述詞典與規(guī)則,我們構(gòu)建了比較句識(shí)別與比較要素提取系統(tǒng)CUCsas。系統(tǒng)工作流程如圖1所示。

        6 實(shí)驗(yàn)結(jié)果及其分析

        運(yùn)行這個(gè)詞典規(guī)則相結(jié)合的比較句識(shí)別與比較要素抽取系統(tǒng)CUCsas,以第四屆中文傾向性評測(COAE2012)發(fā)布的汽車、電子兩個(gè)領(lǐng)域的測試語料為對象,進(jìn)行比較句識(shí)別與比較要素抽取實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果(也是評測結(jié)果)如表2所示。

        表2 CUCsas系統(tǒng)比較句識(shí)別與比較要素抽取結(jié)果

        圖1 CUCsas系統(tǒng)工作流程圖

        上述成績在所有參評隊(duì)伍提交的結(jié)果中,比較句識(shí)別獲得最好成績(平均成績的微平均F值為0.768 6),比較要素抽取all精確匹配、all相互覆蓋也均獲得最好成績(平均成績的微平均F值分別為0.215 2、0.289 4)。系統(tǒng)比較句識(shí)別的準(zhǔn)確率、召回率均達(dá)到90%以上,但比較要素抽取的準(zhǔn)確率、召回率僅為40%左右,還遠(yuǎn)遠(yuǎn)達(dá)不到實(shí)用化的要求。

        我們對系統(tǒng)處理錯(cuò)誤的句子進(jìn)行了分析和歸納,產(chǎn)生錯(cuò)誤主要有以下幾個(gè)原因。

        (1)規(guī)則的方法還有盲區(qū)。通過意合方式表示比較的句子,例如,“捷達(dá)賣6萬元,派利奧之流就得賣三萬元。”這樣的句子既不包含比較詞,也不包含比較表達(dá)式,缺乏形式化標(biāo)記,無法編寫規(guī)則。

        (2)領(lǐng)域詞典和情感詞典不完善。有些情感詞語和領(lǐng)域詞語是漏收,也有些產(chǎn)品名和產(chǎn)品屬性名因過于簡省而沒有收錄。例如,“Mazda3是口碑很好的新型號,目前的6不如3?!比绻?、3放入產(chǎn)品名詞典,會(huì)引入噪聲。權(quán)衡之下,不收,利大于弊。

        (3)比較要素抽取錯(cuò)誤的原因很多。1)語言的復(fù)雜性所導(dǎo)致。當(dāng)一個(gè)句子中出現(xiàn)多個(gè)產(chǎn)品名,且不都是比較要素時(shí),規(guī)則處理起來就顯得捉襟見肘。例如,“這款音箱的音質(zhì)真的不怎么樣,插在電腦上聽音樂感覺不如在電腦上帶耳機(jī)用的音質(zhì)好!”系統(tǒng)錯(cuò)誤地把距離比較標(biāo)記“不如”最近的產(chǎn)品名——它前面的“電腦”和它后面的“電腦”分別抽取為比較主體、比較基準(zhǔn)。2)規(guī)則的約束條件和先后順序安排還有一定問題,致使包含多個(gè)比較分句的句子處理不當(dāng),比較要素抽取錯(cuò)誤。

        (4)情感極性判斷錯(cuò)誤的原因也是多方面的。1)特殊搭配導(dǎo)致極性反轉(zhuǎn),例如,“帕薩特的故障遠(yuǎn)高于中華?!逼渲小案哂凇焙汀肮收稀贝钆鋾r(shí),極性應(yīng)反轉(zhuǎn),由正變負(fù);2)有些句子可以與規(guī)則庫中的多條規(guī)則匹配,最先匹配到的規(guī)則并不符合句子實(shí)際情況,例如,“同君威2.5比,M6_2.0差一點(diǎn)?!痹摼渥钕绕ヅ涞氖潜茸志湟?guī)則,實(shí)際應(yīng)該匹配“同……比”規(guī)則;3)匹配到的情感詞并不是比較結(jié)果詞,例如,“我以前買那些工業(yè)包裝的SONY都要比這些垃圾要好得多。”系統(tǒng)把“垃圾(ne)”認(rèn)作比較結(jié)果詞,但實(shí)際的比較結(jié)果詞是“好得多(po)”。最不應(yīng)該的是,由于我們的粗心,把一條極比規(guī)則右部的比較結(jié)果項(xiàng)的序號寫錯(cuò)了,應(yīng)該是N7,寫成了N5,導(dǎo)致該規(guī)則匹配到的23個(gè)句子的比較主體的極性全部錯(cuò)誤。

        上述有些問題可以通過完善詞典,修改、增添規(guī)則,調(diào)整規(guī)則庫中規(guī)則的順序加以解決。但有些問題,如語言復(fù)雜性導(dǎo)致的抽取錯(cuò)誤、一個(gè)比較句包含多個(gè)比較分句等情況,我們目前還沒有找到兩全的解決方案,只能是抓大放小,把語言中一般性問題、大概率問題的解決放在首位。

        7 結(jié)語

        基于詞義聚類與比較句的語義分類,運(yùn)用詞典與規(guī)則的方法,我們構(gòu)建了比較句識(shí)別與比較要素抽取系統(tǒng)CUCsas,在第四屆中文傾向性評測(COAE2012)中取得了較好的成績。一個(gè)重要的原因是對語言的研究做得比較細(xì)致,例如,從比較要素抽取的角度對比較句的分類方式做出調(diào)整;依據(jù)比較句與比較要素是一種“你中有我,我中有你”的共生關(guān)系,將兩個(gè)任務(wù)合二為一完成;基于不同語義類型構(gòu)建了漢語比較句語義分類體系;對情感詞、領(lǐng)域詞進(jìn)行了較為微觀的分析。我們認(rèn)為,無論采用選取特征訓(xùn)練模型的方法,還是采用詞典規(guī)則的方法,都應(yīng)該注重對語言的研究,把語言的客觀規(guī)律與具體的語言工程有機(jī)結(jié)合起來。系統(tǒng)的不足還有很多,除了上面已談到的外,目前領(lǐng)域詞典的建立主要還是靠手工搜集和輸入,下一步應(yīng)探討如何采用機(jī)器學(xué)習(xí)的方法提高效率。

        [1]黃小江,萬小軍,楊建武,等.漢語比較句識(shí)別研究[J].中文信息學(xué)報(bào),2008,22(5):30-38.

        [2]尚平.比較句系統(tǒng)研究綜述[J].語言文字應(yīng)用,2006,(S2):77-80.

        [3]車競.現(xiàn)代漢語比較句論略[J].湖北師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2005,25(3):60-65.

        [4]賀又寧.現(xiàn)代漢語比較句的結(jié)構(gòu)特色與語用制約試析[J].貴州大學(xué)學(xué)報(bào)(社科版),2001,19(3):70-74.

        [5]鄧鳳民.漢語比較標(biāo)記和差比句語序類型[J].漢語學(xué)習(xí),2012,(2):36-44.

        [6]劉穎.現(xiàn)代漢語中幾種表示相同比較的句式[J].安徽師范大學(xué)學(xué)報(bào)(人文社科版),2000,28(3):436-440.

        [7]又寧.現(xiàn)代漢語中兩種主要的比較句的分析[J].語文研究,1995,(3):5-10.

        [8]陳珺,周小兵.比較句語法項(xiàng)目的選取和排序[J].語言教學(xué)與研究,2005,(2):22-33.

        [9]何元建.現(xiàn)代漢語比較句式的句法結(jié)構(gòu)[J].漢語學(xué)習(xí),2010,(5):11-19.

        [10]賀又寧.現(xiàn)代漢語比較句的投射規(guī)律[J].貴族師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2000,(1):120-122.

        [11]許國萍.“比”字句研究綜述[J].漢語學(xué)習(xí),1996,(6):28-31.

        [12]任海波.現(xiàn)代漢語“比”字句結(jié)論項(xiàng)的類型[J].語言教學(xué)與研究,1987,(4):91-103.

        [13]李艷,孫斐.沒有型比較句的比較結(jié)果研究[J].濱州學(xué)院學(xué)報(bào),2007,23(2):32-36.

        [14]宋銳,林鴻飛,常富洋.中文比較句識(shí)別及比較關(guān)系抽?。跩].中文信息學(xué)報(bào),2009,23(2):102-107.

        [15]黃高輝,姚天昉,劉全升.基于CRF算法的漢語比較句識(shí)別和關(guān)系抽?。跩].計(jì)算機(jī)應(yīng)用研究,2010,27(6):2061-2064.

        猜你喜歡
        語義規(guī)則情感
        撐竿跳規(guī)則的制定
        數(shù)獨(dú)的規(guī)則和演變
        如何在情感中自我成長,保持獨(dú)立
        語言與語義
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        如何在情感中自我成長,保持獨(dú)立
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        TPP反腐敗規(guī)則對我國的啟示
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        丰满少妇高潮惨叫久久久| 国产日韩一区二区精品| 国产精品美女一区二区av| 蜜桃av精品一区二区三区| 中国国语毛片免费观看视频 | 亚洲免费一区二区三区视频| 中文字幕一区二区三区亚洲| 精品人妻系列无码人妻漫画 | 91精品国产综合成人| 亚洲福利第一页在线观看| 日本免费一区二区在线视频播放| 国产又爽又黄又刺激的视频| 91精品福利一区二区| 一区二区视频网站在线观看| 亚洲人妻调教中文字幕| 激情航班h版在线观看| 久久精品中文字幕| 人禽伦免费交视频播放| 国产精品一区2区三区| 久久九九精品国产不卡一区| 午夜天堂精品久久久久| 亚洲综合无码一区二区三区 | 护士的小嫩嫩好紧好爽| 88国产精品视频一区二区三区| 欧美人与物videos另类| av在线免费观看大全| 区二区三区玖玖玖| 免费中文熟妇在线影片| 亚洲一区二区三区精彩视频| 玩弄少妇人妻中文字幕| 国产山东熟女48嗷嗷叫| 精品一区二区三区人妻久久| 国产色婷婷久久又粗又爽| 99久久精品日本一区二区免费| 久久九九青青国产精品| 凹凸世界视频a一二三| 放荡的少妇2欧美版| 亚洲精品第一页国产精品| 男女啦啦啦视频在线观看| 日韩经典午夜福利发布| 国产三级在线观看免费|