亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征自動(dòng)選擇方法的漢語(yǔ)隱喻計(jì)算

        2016-06-22 06:48:58曾華琳周昌樂(lè)陳毅東史曉東
        關(guān)鍵詞:機(jī)器學(xué)習(xí)

        曾華琳,周昌樂(lè),陳毅東,史曉東

        (廈門大學(xué) 信息科學(xué)與技術(shù)學(xué)院,福建省仿腦智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,福建廈門361005)

        基于特征自動(dòng)選擇方法的漢語(yǔ)隱喻計(jì)算

        曾華琳,周昌樂(lè)*,陳毅東,史曉東

        (廈門大學(xué) 信息科學(xué)與技術(shù)學(xué)院,福建省仿腦智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,福建廈門361005)

        摘要:漢語(yǔ)隱喻計(jì)算是中文信息處理中的棘手難題之一.已有的隱喻識(shí)別研究多以人工方式分析和抽取隱喻特征,存在著主觀性強(qiáng)、難以擴(kuò)充的缺點(diǎn),并且對(duì)于專業(yè)背景知識(shí)要求比較嚴(yán)格.本文基于大規(guī)模語(yǔ)料庫(kù)的機(jī)器學(xué)習(xí),利用最大熵分類模型,提出了一種最優(yōu)特征模板自動(dòng)抽取的隱喻識(shí)別算法,討論了3種不同層次的特征模板,既包含了經(jīng)典的簡(jiǎn)單特征,又將跨多個(gè)詞的遠(yuǎn)距離上下文信息,以及描述語(yǔ)義信息的詞語(yǔ)相似性引入特征模板進(jìn)行考察.實(shí)驗(yàn)結(jié)果表明,該算法提高了隱喻識(shí)別準(zhǔn)確率,是一種對(duì)于漢語(yǔ)隱喻計(jì)算行之有效的機(jī)器學(xué)習(xí)方法.

        關(guān)鍵詞:漢語(yǔ)隱喻計(jì)算;隱喻識(shí)別;機(jī)器學(xué)習(xí);自動(dòng)特征選擇

        隱喻,廣泛存在于人類的語(yǔ)言生活中.從先古哲學(xué)家亞里士多德的修辭學(xué),到現(xiàn)代萊可夫的認(rèn)知語(yǔ)言學(xué),無(wú)論是在中文語(yǔ)言學(xué),抑或是在西方語(yǔ)言學(xué)研究中,隱喻一直是處于前沿探索階段的項(xiàng)目[1-7].在語(yǔ)言學(xué)與計(jì)算機(jī)科學(xué)的交叉學(xué)科——中文信息處理中,隱喻則屬于語(yǔ)義級(jí)別的范疇,至今仍然是亟待解決的棘手難題之一.

        漢語(yǔ)隱喻的研究,主要集中在隱喻識(shí)別和隱喻理解兩大方面,統(tǒng)稱為隱喻計(jì)算.隱喻識(shí)別旨在從上下文環(huán)境中判斷隱喻現(xiàn)象的存在,而隱喻理解則需要給出對(duì)于隱喻意義的推理.從方法論而言,分別有規(guī)則、統(tǒng)計(jì)和邏輯的方法.長(zhǎng)期以來(lái),在隱喻計(jì)算研究中,規(guī)則和邏輯的方法占據(jù)了主流地位.已有的研究[8-15]中,無(wú)論是純規(guī)則,或者是規(guī)則和統(tǒng)計(jì)相結(jié)合的方法,規(guī)則都是由人工整理和編寫的,建立在人工收集和定義描述的基礎(chǔ)上.而通過(guò)人工進(jìn)行收集和編寫的規(guī)則,規(guī)模有限,主觀性強(qiáng),不易于擴(kuò)充,這是規(guī)則(rule-based)方法的通病,也是阻礙隱喻計(jì)算實(shí)用化的癥結(jié)所在.

        近年來(lái),機(jī)器學(xué)習(xí)方法[16-17]運(yùn)用到計(jì)算語(yǔ)言學(xué)的各個(gè)領(lǐng)域,都獲得了很好的效果,特別是在大語(yǔ)料環(huán)境下的機(jī)器學(xué)習(xí)方法的成功使用.隱喻計(jì)算中也曾有機(jī)器學(xué)習(xí)方法的嘗試,王治敏[10,14]利用最大熵模型研究了名詞性漢語(yǔ)隱喻短語(yǔ)的識(shí)別,賈玉祥[13,18]則提出了基于實(shí)例的隱喻理解與生成,而在他們的研究中,特征的選取仍然是人工進(jìn)行的,對(duì)每個(gè)單獨(dú)的隱喻候選詞,每個(gè)特殊隱喻現(xiàn)象的特征都進(jìn)行詳細(xì)考察,這要求特征的選取者對(duì)于隱喻計(jì)算模型有著深刻的認(rèn)識(shí),終究避免不了人工方式所帶來(lái)的困境,無(wú)法將隱喻計(jì)算做到一般化的過(guò)程.

        為了避免人工方法所帶來(lái)的缺陷,消除主觀性及隱喻特征選擇的不一致性,本文提出了一種基于大規(guī)模語(yǔ)料庫(kù)的漢語(yǔ)隱喻特征自動(dòng)抽取方法,將機(jī)器學(xué)習(xí)中的特征選擇思想引入到漢語(yǔ)隱喻計(jì)算中,分析漢語(yǔ)隱喻在詞、句法結(jié)構(gòu)以及語(yǔ)義層面上的不同特點(diǎn),給出3種不同類型的特征模板描述,并利用最大熵模型構(gòu)建漢語(yǔ)隱喻特征模板庫(kù),以有監(jiān)督學(xué)習(xí)方式處理漢語(yǔ)隱喻計(jì)算.

        1漢語(yǔ)隱喻計(jì)算的機(jī)器學(xué)習(xí)分類模型

        分類是機(jī)器學(xué)習(xí)算法中的典型任務(wù),基本思想是訓(xùn)練分類函數(shù),然后將待分類對(duì)象以特征序列表示進(jìn)行輸入,通過(guò)計(jì)算分類函數(shù)得到的數(shù)值給出分類結(jié)果.隱喻計(jì)算屬于典型的機(jī)器學(xué)習(xí)分類問(wèn)題.本文提出一種適用于漢語(yǔ)隱喻計(jì)算的機(jī)器學(xué)習(xí)分類模型,用于構(gòu)建隱喻計(jì)算的2個(gè)基本任務(wù).

        1.1隱喻計(jì)算中的分類

        隱喻計(jì)算的不同階段都可以建立分類模型,其理論依據(jù)在于隱喻的本質(zhì)——“同從異出”,即在識(shí)別出隱喻的存在并確定本體和喻體之后,在概念系統(tǒng)中,把比較具體的喻體(相當(dāng)于源域)的知識(shí),與比較抽象的本體(相當(dāng)于目標(biāo)域)的知識(shí)進(jìn)行比較,通過(guò)動(dòng)態(tài)的互動(dòng)過(guò)程描述,用喻體知識(shí)來(lái)“認(rèn)識(shí)”本體對(duì)象.在這個(gè)過(guò)程中,作為本體和喻體,都有許多不同的意義描述.

        隱喻計(jì)算分為2個(gè)階段進(jìn)行:1) 隱喻識(shí)別.從表面上看,喻體的概念范疇與本體差別較大,引起強(qiáng)烈的沖突感,即所謂“異出”.正確感知這種沖突感,實(shí)現(xiàn)隱喻識(shí)別,這是個(gè)二值分類問(wèn)題.2) 隱喻理解.本體的理解是一個(gè)依賴于喻體特征的有選擇性的部分映射,這種映射過(guò)程并不是隨意的,而是根據(jù)其上下文環(huán)境的限制聚焦后而得的映射結(jié)果.于是,隱喻理解可以看作是在上下文環(huán)境中,本體受喻體概念聚焦后對(duì)于意義再次分類而確定相似點(diǎn)的過(guò)程,一旦能夠正確地選定相似點(diǎn),隱喻理解就完成了,這所謂找到了“同從”.隱喻的理解,正是一個(gè)從“異出”聚焦到“同從”的過(guò)程.最后,隱喻計(jì)算還有一個(gè)任務(wù),即隱喻生成,它完成了從“同從”本質(zhì)選擇“異出”表現(xiàn)的過(guò)程.

        綜上所述,隱喻識(shí)別屬于二值分類問(wèn)題,選取隱喻候選詞上下文的特征,根據(jù)有效分類算法,作出是否存在隱喻現(xiàn)象的判斷;而隱喻理解屬于多值分類問(wèn)題,在給定句子的本體和喻體之后,分析兩者的各個(gè)義項(xiàng),確定相似點(diǎn),完成隱喻的理解過(guò)程.隱喻識(shí)別與理解可以類比于自然語(yǔ)言處理的經(jīng)典問(wèn)題——詞義消歧[19-20],三者之間的不同點(diǎn)比較如表1所示.

        表1 隱喻計(jì)算與詞義消歧的分類模型

        注:多對(duì)多指本體與喻體在意義范疇的相似點(diǎn)確定;一對(duì)多指多個(gè)詞義的唯一確定.

        在對(duì)隱喻計(jì)算的分類任務(wù)建模之后,本文將經(jīng)典的機(jī)器學(xué)習(xí)分類算法引入隱喻計(jì)算中來(lái),特別地針對(duì)隱喻識(shí)別進(jìn)行研究.

        1.2隱喻計(jì)算的分類特征模板

        在常見(jiàn)的機(jī)器學(xué)習(xí)分類任務(wù)中,最重要的在于特征模板的構(gòu)建.隱喻計(jì)算的分類模型中包含了2個(gè)任務(wù):1) 定義隱喻計(jì)算中的特征.隱喻作為意識(shí)層面的認(rèn)知任務(wù),其特征不再僅僅停留于一般的文本分類任務(wù)的特征,本文引入了語(yǔ)義層面的知識(shí),將語(yǔ)義相似度作為顯著特征進(jìn)行表述.2) 收集針對(duì)每一個(gè)隱喻候選詞的有效特征模板.隱喻候選詞應(yīng)該包含本體以及喻體,即在隱喻理解過(guò)程中本、喻體各自的知識(shí)概念有效特征模板表示.

        1.3基于最大熵的隱喻計(jì)算分類模型

        最大熵模型[21]的優(yōu)勢(shì)在于忠于大規(guī)模真實(shí)文本,特別是對(duì)于“稀疏事件”問(wèn)題的處理上,它能使得未知事件的概率分布不做任何假設(shè),盡可能平均,以得到最大熵為目標(biāo).

        在有約束條件的情況下,使條件熵最大化,即:

        (1)

        式中:c為約束條件,在本任務(wù)中,即隱喻現(xiàn)象的上下文環(huán)境;m為是否是隱喻的分類描述.約束條件是用特征函數(shù)(簡(jiǎn)稱為特征)進(jìn)行描述的.

        綜上所述,本文重點(diǎn)對(duì)于隱喻識(shí)別的特征模板進(jìn)行考察.利用語(yǔ)言學(xué)知識(shí),定義備選特征模板庫(kù),針對(duì)隱喻候選詞進(jìn)行最大熵模型訓(xùn)練,通過(guò)自動(dòng)特征選擇算法,篩選顯著特征模板,完成隱喻識(shí)別的特征自動(dòng)抽取過(guò)程.

        2隱喻計(jì)算的最優(yōu)特征模板選擇算法

        2.1最優(yōu)特征模板選擇算法

        本文針對(duì)語(yǔ)料庫(kù)中出現(xiàn)頻率較高的隱喻候選詞進(jìn)行訓(xùn)練,抽取每個(gè)特定候選詞的最優(yōu)特征模板集.這是一個(gè)最優(yōu)子集合問(wèn)題,屬于組合數(shù)范疇,也是一個(gè)NP完全問(wèn)題,其算法時(shí)間復(fù)雜度為2n.為了降低算法計(jì)算復(fù)雜度,本文選擇利用貪心算法構(gòu)建模板選擇過(guò)程.最優(yōu)特征模板選擇算法描述如下:

        輸入:特征模板集合F={Fi};隱喻候選詞;隱喻正反例訓(xùn)練庫(kù);隱喻句測(cè)試庫(kù).

        輸出:針對(duì)特定隱喻候選詞的最優(yōu)特征模板子集S.

        初始化最優(yōu)特征模板子集S=NULL,循環(huán)迭代次數(shù)Istop=0,最優(yōu)分?jǐn)?shù)BBsstscore=0;

        While特征模板集合F不為NULL do;

        T=S;Cscore[]=0;

        Forj=1 to sizeof(F)遍歷特征模板集合F中所有的特征Fj;

        T=T+Fj;

        以當(dāng)前特征模板集合T訓(xùn)練最大熵模型MaxHP(T),并對(duì)其進(jìn)行評(píng)分Cscore[j];

        T=T-Fj;

        end for;

        圖1 系統(tǒng)流程圖Fig.1System flowchart

        記錄取得最高分的特征MaxCscoreF,以及最高分?jǐn)?shù)MaxCscore;

        IF本輪最高分?jǐn)?shù)MaxCscore> 迭代最優(yōu)分?jǐn)?shù)BBsstscore;

        將對(duì)應(yīng)的特征MaxCscoreF納入最優(yōu)特征模板子集S中,并更新BBsstscore;

        else;

        循環(huán)迭代次數(shù)Istop=Istop+1;

        end if;

        IF 循環(huán)迭代次數(shù)Istop超過(guò)3次;

        結(jié)束搜索break;

        end if;

        end while;

        ReturnS.

        從備選特征模板集合中選擇備選特征,考察備選特征項(xiàng)對(duì)于整體分類模型的影響,從而決定是否加入特征模板,選擇過(guò)程依次逐步開(kāi)展.考察過(guò)程分2步:1) 在訓(xùn)練集中訓(xùn)練加入備選特征項(xiàng)后的特征集合的分類模型;2) 在測(cè)試集中計(jì)算此分類模型的得分,記錄分?jǐn)?shù),選擇取得最高分?jǐn)?shù)的特征項(xiàng).如果此得分比前一代模板得分高,則將此模板項(xiàng)加入特征模板集;否則,迭代次數(shù)加1.當(dāng)分類模型得分下降的次數(shù)超過(guò)3次,或者備選特征模板集合為空,則停止考察.

        系統(tǒng)整體流程如圖1所示.

        2.2特征模板構(gòu)造

        特征函數(shù)通常選擇二值函數(shù)或者頻率.隱喻計(jì)算中常用特征,在人工抽取上常見(jiàn)于選擇在詞義上具有典型特征的詞匯,特定的輔助虛詞,特殊的語(yǔ)法結(jié)構(gòu)等.本文針對(duì)隱喻識(shí)別任務(wù),定義了3種層次的隱喻特征:簡(jiǎn)單特征、依存關(guān)系構(gòu)建的上下文環(huán)境特征、異常度特征.

        2.2.1簡(jiǎn)單特征

        以詞為序列的特征函數(shù)構(gòu)建任務(wù)中,常選擇詞、詞性、N元詞與詞性的組合.這類特征里具有顯著效果的是與此相關(guān)的特征詞、高頻共現(xiàn)、慣用搭配以及常見(jiàn)語(yǔ)法搭配格式.例如,王治敏在其研究[10,14]中核心討論了名詞隱喻中常見(jiàn)的“名詞+的+名詞”結(jié)構(gòu),該結(jié)構(gòu)會(huì)在中心詞向左或者向右的跨度為2個(gè)詞的窗口中,以“名詞+的”或“的+名詞”的模式被凸顯.

        以“他沉浸在書籍的海洋里不能自拔.”為例說(shuō)明.

        分詞標(biāo)注以后的結(jié)果為“他/rr 沉浸/v 在/p 書籍/n 的/uj 海洋/n 里/f 不能自拔/v./w”.

        候選詞“海洋”,W-2為“書籍”,W-1為“的”,W+1為“里”,W+2為“不能自拔”,Pos-2為“n”,Pos-1為“uj”,Pos0為“n”,Pos+1為“f”,Pos+2為“v”.

        2.2.2上下文環(huán)境特征

        隱喻的出現(xiàn)與上下文關(guān)系是密切聯(lián)系的, 在某些上下文環(huán)境下,有些句子無(wú)法識(shí)別為隱喻;然而換個(gè)上下文環(huán)境,隱喻意義則會(huì)呈現(xiàn)出來(lái),這里的上下文環(huán)境不僅僅是在簡(jiǎn)單特征中所描述的詞的包圍,而是包含了在語(yǔ)法結(jié)構(gòu)中的語(yǔ)法環(huán)境.文獻(xiàn)[12]中提到,除了“辯詞”、“斷義”之外,“按語(yǔ)法分割意群”和“將意群組合成句”都是隱喻相似點(diǎn)選擇所依賴的隱喻語(yǔ)境作用機(jī)制.另外,隱喻意義的理解在不同的語(yǔ)境下也會(huì)聚焦到不同的意義.簡(jiǎn)單特征中,窗口大小的選擇是有長(zhǎng)度限制的,增加窗口長(zhǎng)度所帶來(lái)的計(jì)算復(fù)雜度的增大與由此帶來(lái)的系統(tǒng)準(zhǔn)確率的提高相比,得不償失;特別對(duì)于復(fù)雜長(zhǎng)句來(lái)說(shuō),在目標(biāo)詞附近尋找到顯著特征是一件非常困難的事情,但是又不能無(wú)條件地?cái)U(kuò)大窗口.于是,加入語(yǔ)法分析后的語(yǔ)法結(jié)構(gòu)特征將是一個(gè)很好的選擇.

        表2 簡(jiǎn)單特征

        HED:核心關(guān)系;SBV:主謂關(guān)系;VOB:動(dòng)賓關(guān)系(直接賓語(yǔ));ATT:定中關(guān)系;RAD:右附加關(guān)系;COO:并列關(guān)系;ADV:狀中關(guān)系;WP:標(biāo)點(diǎn)符號(hào).圖2 依存語(yǔ)法舉例Fig.2Example of dependency grammar

        以如下句子“草原是這樣無(wú)邊的平展,就像風(fēng)平浪靜的海洋.”分析.本體“草原”和喻體“海洋”分別以主語(yǔ)和賓語(yǔ)的形式出現(xiàn),中間間隔的詞有9個(gè):“的”、“風(fēng)平浪靜”、“像”、“就”、“平展”、“的”、“無(wú)邊”、“這樣”、“是”.

        例句的依存語(yǔ)法描述如圖2所示.隱喻關(guān)系中的本、喻體“草原”和“海洋”之間,在依存語(yǔ)法中以主賓關(guān)系共現(xiàn).抽取經(jīng)過(guò)依存語(yǔ)法分析后而得的語(yǔ)法結(jié)構(gòu)特征作為有效模板,對(duì)于隱喻識(shí)別準(zhǔn)確率的提高是有很大幫助的.在前人做過(guò)的隱喻識(shí)別算法中,曾經(jīng)有以依存語(yǔ)法作為分析的依據(jù),然而,對(duì)于依存語(yǔ)法的使用是利用模式匹配的方式來(lái)進(jìn)行,并沒(méi)有針對(duì)于某個(gè)隱喻候選詞的特殊分析,本文將依存語(yǔ)法分析后得到的語(yǔ)法特征以及語(yǔ)法搭配模式加入考察.一方面,加入其語(yǔ)法信息;另一方面,加入依存語(yǔ)法中的上下文搭配,這樣也是對(duì)于“按語(yǔ)法分割意群”和“將意群組合成句”的語(yǔ)境作用機(jī)制的運(yùn)用.于是,考慮增加表3的上下文環(huán)境特征.

        表3 上下文環(huán)境特征

        2.2.3異常度特征

        異常度特征是在機(jī)器學(xué)習(xí)下,對(duì)于人工規(guī)則的一種補(bǔ)充.這里,本文將隱喻的沖突機(jī)制作為特定的特征進(jìn)行引入.所謂沖突機(jī)制,闡述的是隱喻“同從異出”機(jī)制中本、喻體之間在概念范疇內(nèi)的同異關(guān)系.本文研究的對(duì)象集中于名詞性的隱喻,考察語(yǔ)料庫(kù)中關(guān)于名詞性隱喻的結(jié)構(gòu),90%以上核心詞的依存語(yǔ)法中,存在“名詞+名詞”結(jié)構(gòu)和“主語(yǔ)+賓語(yǔ)”結(jié)構(gòu),即本體和喻體都是名詞.于是,考察與目標(biāo)詞搭配的名詞,考察潛在的本體或者喻體與目標(biāo)詞之間的異常度.

        知網(wǎng),作為知識(shí)概念系統(tǒng)及概念屬性的描述,可以給出詞語(yǔ)之間的語(yǔ)義相似度,這正是在意義的相似性方面給出的潛在本、喻體之間的異常度描述.在此,選取知網(wǎng)的相似度計(jì)算作為異常度特征(表4)進(jìn)行考察,計(jì)算公式如下:

        (2)

        其中S1j,S2j分別為考察目標(biāo)詞W1及目標(biāo)詞搭配名詞W2在知網(wǎng)中的義項(xiàng).

        表4 異常度特征

        2.2.4窗口大小選擇

        表5 窗口大小實(shí)驗(yàn)結(jié)果比較

        窗口大小主要在簡(jiǎn)單特征中進(jìn)行不同的實(shí)驗(yàn),以隱喻候選詞為中心,在規(guī)定大小的上下文窗口中選擇具有典型意義的特征模板,從訓(xùn)練數(shù)據(jù)中獲取特征數(shù)據(jù),形成特征向量,以指導(dǎo)分類的進(jìn)行.在語(yǔ)言學(xué)理論中,詞語(yǔ)的上下文環(huán)境決定詞義,可以通過(guò)不涉及詞的意義層次,而通過(guò)上下文的語(yǔ)法特征來(lái)描述其意義.選取不同大小的窗口進(jìn)行橫向比較是有必要的.窗口選擇過(guò)小,不能很好地體現(xiàn)目標(biāo)詞的上下文環(huán)境;而窗口選擇過(guò)大,雖然上下文信息比較豐富,但是也由此帶入了不必要的噪音,并且?guī)?lái)計(jì)算量的指數(shù)級(jí)增加.選擇合適大小的窗口,既包含可計(jì)算信息,又能在算法效率上找到平衡點(diǎn),這顯得尤為重要.

        2.3評(píng)價(jià)函數(shù)

        最大熵模型用于對(duì)特征模板的訓(xùn)練和隱喻計(jì)算過(guò)程中.在系統(tǒng)流程中,每輪的模型訓(xùn)練選擇一個(gè)備選特征加入到候選模板中,利用最大熵模型進(jìn)行參數(shù)的訓(xùn)練,將得到的最大熵模型在測(cè)試數(shù)據(jù)上進(jìn)行測(cè)試,計(jì)算識(shí)別F-Measure值(后簡(jiǎn)稱F值),F值是準(zhǔn)確率P和召回率R的加權(quán)調(diào)和平均,以此值為衡量該特征模板的標(biāo)準(zhǔn),計(jì)算公式如下:

        (3)

        (4)

        (5)

        3實(shí)驗(yàn)分析與對(duì)比

        從《讀者》、《圍城》中抽取隱喻句庫(kù),從漢語(yǔ)比喻詞典中抽取經(jīng)典比喻句,組成隱喻正例庫(kù),同時(shí)也抽取反例庫(kù),并選取新浪微博數(shù)據(jù)做實(shí)驗(yàn)語(yǔ)料.選擇在語(yǔ)料中使用較為頻繁的10個(gè)名詞作為研究對(duì)象,考察它們?cè)谡鎸?shí)語(yǔ)料中的隱喻分布情況,用最大熵方法進(jìn)行隱喻的識(shí)別.

        從語(yǔ)料庫(kù)中總提取1 000個(gè)樣本,其中每個(gè)詞語(yǔ)構(gòu)造約100個(gè)實(shí)驗(yàn)樣本.測(cè)試集與訓(xùn)練集比例選取3∶7.開(kāi)放測(cè)試集從搜索引擎收集及《人民日?qǐng)?bào)》1998年上半年語(yǔ)料,針對(duì)每個(gè)詞語(yǔ)構(gòu)造約50個(gè)實(shí)驗(yàn)樣本.

        最大熵模型的使用,選擇最大熵工具包(Maximum Entropy Modeling Toolkit for Python and C++,ZHANG Le,2004-12-29),參數(shù)估計(jì)選用LBFGS,迭代次數(shù)為100次.本文實(shí)驗(yàn)的計(jì)算機(jī)硬件配置為Intel i7-4510型CPU,8 G內(nèi)存,運(yùn)行64位操作系統(tǒng).實(shí)驗(yàn)程序代碼由C++實(shí)現(xiàn),編程環(huán)境為Microsoft Visual Studio 2008版.

        3.1窗口大小對(duì)于簡(jiǎn)單特征的影響

        首先對(duì)窗口大小單獨(dú)進(jìn)行考察,僅針對(duì)簡(jiǎn)單特征在封閉測(cè)試下進(jìn)行.這里節(jié)選“海洋”、“愛(ài)情”、“港灣”、“心靈”4個(gè)候選詞的結(jié)果列表展示于表5.

        總體來(lái)看,(-2,+1)和(-2,+2)窗口的識(shí)別準(zhǔn)確率大體上要高于(-1,+1)窗口,而(-2,+1)和(-2,+2)效果相當(dāng).因?yàn)?-1,+1)窗口太小,出現(xiàn)在窗口內(nèi)的詞語(yǔ)較少,很難全面衡量影響名詞短語(yǔ)隱喻的各個(gè)因素,在隱喻識(shí)別上存在較大的偶然性和武斷性.而隨著窗口的增大、詞語(yǔ)數(shù)目的增多,特征值數(shù)量也隨之增多,從而更全面地考察了隱喻識(shí)別的各個(gè)因素,減少了因窗口太小而造成的誤差,使得準(zhǔn)確率有所上升.最終,本文選擇了(-2,+2)作為實(shí)驗(yàn)中簡(jiǎn)單特征的窗口大?。?/p>

        3.2自動(dòng)模板抽取算法結(jié)果分析

        本文考察的是漢語(yǔ)隱喻特征的自動(dòng)抽取方法,結(jié)果分析從2個(gè)方面進(jìn)行.1) 分析模板自動(dòng)抽取方式與模板人工抽取方式下的整體隱喻識(shí)別準(zhǔn)確率變化情況;2) 分析自動(dòng)抽取的模板與人工抽取的模板的變化情況.

        圖3和圖4中分別描述的是在封閉測(cè)試和開(kāi)放測(cè)試環(huán)境的不同抽取方式下,10組候選詞的F值的變化情況對(duì)比.橫坐標(biāo)描述的是10組不同候選詞,縱坐標(biāo)描述的是F值(0≤F≤1).可以看到,無(wú)論在封閉測(cè)試,還是開(kāi)放測(cè)試,在10組候選詞的測(cè)試結(jié)果中,本文提出的自動(dòng)抽取算法的整體F值相對(duì)于人工方式都有一定的提高.整體上看,在2種方式下,F值的取值走向一致也說(shuō)明了機(jī)器學(xué)習(xí)的方式抽取模板可以很好地模擬具有相關(guān)知識(shí)背景的專業(yè)人士抽取方式,這從極大程度上解決了由人工抽取模板方法而導(dǎo)致的效率低下、無(wú)法擴(kuò)充、主觀性強(qiáng)的缺陷,說(shuō)明了機(jī)器學(xué)習(xí)方式在隱喻計(jì)算領(lǐng)域的可行性.

        圖3 封閉測(cè)試F-Measure值結(jié)果Fig.3F-Measure result of closed test sets

        圖4 開(kāi)放測(cè)試F-Measure值結(jié)果Fig.4F-Measure result of open test sets

        另外,為了起參照作用,列舉本文提出的自動(dòng)模板抽取算法抽取的特征如表6所示.

        表6 自動(dòng)模板抽取

        從以上的模板抽取結(jié)果可以看出,常規(guī)的簡(jiǎn)單特征在每個(gè)不同候選詞的結(jié)果中會(huì)有不同的選擇,并不是所有的簡(jiǎn)單特征都適用于所有模板.本文提出的另兩類模板都有在最后的結(jié)果中出現(xiàn),說(shuō)明此兩類模板確實(shí)是有效模板.必須看到的是,本文算法提取的是有效特征模板,而其對(duì)應(yīng)的特征數(shù)量相較于人工提取方式而言還是比較多的.人工方式對(duì)于特征的提取,具體到每個(gè)候選詞的每個(gè)特征的具體詞;而模板方式抽取,只進(jìn)行到特征模板層次,對(duì)于每個(gè)特征的具體實(shí)際選擇包含的內(nèi)容比較多.因此,在算法復(fù)雜度以及計(jì)算量上,自動(dòng)抽取方式相較人工抽取方式會(huì)復(fù)雜得多;但自動(dòng)抽取方式更加客觀,并且是一般化的處理過(guò)程,減少了人工抽取方式的主觀性缺陷.

        4結(jié)論

        本文從分析漢語(yǔ)隱喻計(jì)算中人工方式所帶來(lái)的主觀性以及規(guī)范性問(wèn)題出發(fā),構(gòu)建了隱喻計(jì)算的2種分類任務(wù),并利用機(jī)器學(xué)習(xí)方法對(duì)其進(jìn)行建模,分別構(gòu)造了隱喻識(shí)別和理解任務(wù)的分類模型,提出了一個(gè)機(jī)器學(xué)習(xí)方式自動(dòng)抽取最優(yōu)特征模板的算法.從實(shí)驗(yàn)結(jié)果看,相較于人工抽取模板的方式而言,準(zhǔn)確率有顯著的提高,其更重要的意義在于從大語(yǔ)料庫(kù)出發(fā),以機(jī)器學(xué)習(xí)方式取代人工規(guī)則方式所帶來(lái)的主觀性缺陷,是一種值得推廣的學(xué)習(xí)方式.

        本文的研究工作還有提升空間.本文算法的計(jì)算量大,對(duì)于某個(gè)候選詞的特征模板選擇在數(shù)量級(jí)上超過(guò)人工抽取方式,另外受語(yǔ)料庫(kù)影響也比較大,這都是機(jī)器學(xué)習(xí)方式無(wú)法避免的弊端.進(jìn)一步的改進(jìn)任務(wù)在于:1) 本文主要是針對(duì)以名詞為主體的隱喻現(xiàn)象的處理,可以將這種形式推廣到動(dòng)詞、形容詞性的短語(yǔ)隱喻描述,進(jìn)一步的從短語(yǔ)級(jí)別推廣到句子級(jí)別等;2) 針對(duì)文中提出的隱喻理解和隱喻生成模型提出適用于機(jī)器學(xué)習(xí)的算法進(jìn)行嘗試.

        參考文獻(xiàn):

        [1]LAKOFF G,JOHNSON M.Metaphors we live by[M].Chicago:University of Chicago Press,1980.

        [2]GOALTY A.The language of metaphors[M].New York:Routledge,1997.

        [3]RICOEUR P.活的隱喻[M].汪堂家,譯.上海:上海譯文出版社,2004.

        [4]馮廣藝.漢語(yǔ)比喻研究史[M].武漢:湖北教育出版社,2002.

        [5]馮曉虎.隱喻:思維的基礎(chǔ) 篇章的框架[M].北京:對(duì)外貿(mào)易大學(xué)出版社,2004.

        [6]胡壯麟.認(rèn)知隱喻學(xué)[M].北京:北京大學(xué)出版社,2004.

        [7]束定芳.隱喻學(xué)研究[M].上海:上海外語(yǔ)教育出版社,2000.

        [8]楊蕓.漢語(yǔ)隱喻識(shí)別與解釋計(jì)算模型研究[D].廈門:廈門大學(xué),2008.

        [9]蘇暢.漢語(yǔ)名詞性隱喻的計(jì)算方法研究[D].廈門:廈門大學(xué),2008.

        [10]王治敏.漢語(yǔ)名詞短語(yǔ)隱喻識(shí)別研究[D].北京:北京大學(xué),2006.

        [11]黃孝喜.隱喻機(jī)器理解的若干關(guān)鍵問(wèn)題研究[D].杭州:浙江大學(xué),2009.

        [12]周昌樂(lè).意義的轉(zhuǎn)繹:漢語(yǔ)隱喻的計(jì)算釋義[M].北京:人民出版社,2009.

        [13]賈玉祥.基于實(shí)例的隱喻理解與生成[J].計(jì)算機(jī)科學(xué),2009,36(3):138-141.

        [14]王治敏.名詞隱喻的計(jì)算研究及識(shí)別實(shí)驗(yàn)[J].語(yǔ)言教學(xué)與研究,2008(2):68-74.

        [15]馮帥,蘇暢,陳怡疆.基于百科資源的名詞性隱喻識(shí)別[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2013,22(10):8-14.

        [16]YAO G,ZENG H L,CHAO F,et al.Integration of classifier diversity measures for feature selection-based classifier ensemble reduction[C]∥Soft Computing.Berlin:Springer Berlin Heidelberg,2015:1-11.

        [17]DIAO R,CHAO F,PENG T,et al.Feature selection inspired classifier ensemble reduction[J].IEEE Transactions on Cybernetics,2014,44(8):1259-1268.

        [18]賈玉祥,俞士汶.基于詞典的名詞性隱喻識(shí)別[J].中文信息學(xué)報(bào),2011,25(2):99-104.

        [19]何徑舟,王厚峰.基于特征選擇和最大熵模型的漢語(yǔ)詞義消歧[J].軟件學(xué)報(bào),2010,21(6):1287-1295.

        [20]全昌勤,何婷婷,姬東鴻,等.基于多分類器決策的詞義消歧方法[J].計(jì)算機(jī)研究與發(fā)展,2006,43(5):933-939.

        [21]BERGER A L,PIETRAY S A D,PIETRAY V J D.A maximum entropy approach to natural language processing[J].Computational Linguistics,1996,22(1):1-36.

        Chinese Metaphor Computation Based on Automatic Feature Selection

        ZENG Hualin,ZHOU Changle*,CHEN Yidong,SHI Xiaodong

        (Fujian Key Lab of the Brain-like Intelligent Systems,School of Information Science and Engineering,Xiamen University,Xiamen 361005,China)

        Abstract:Chinese metaphor computation is one of difficult problems in the Chinese information processing.It is very subjective and difficult for existing research methods by manually analyzing and extraction of metaphor feature.For the purpose of analyzing the traditional rule-based methods,a new machine learning method based on large scale corpus is proposed for metaphor recognition.The proposed method uses the maximum entropy model,and three different feature patterns,which are common features,large-scale context information,and the similarity of candidate words, to describe semantic information.Experimental results show that the proposed method can improve the accuracy of the metaphor recognition,and also indicate the effectiveness of the proposed machine learning method for metaphor computation.

        Key words:Chinses metaphor computation;metaphor recognition;machine learing;automatic feature selection

        doi:10.6043/j.issn.0438-0479.2016.03.018

        收稿日期:2015-11-17錄用日期:2016-04-06

        基金項(xiàng)目:國(guó)家自然科學(xué)基金(61573294);國(guó)家科技支撐計(jì)劃(2012BAH14F03);教育部博士學(xué)科點(diǎn)基金博導(dǎo)類項(xiàng)目(20130121110040)

        *通信作者:dozero@xmu.edu.cn

        中圖分類號(hào):TP 391.1

        文獻(xiàn)標(biāo)志碼:A

        文章編號(hào):0438-0479(2016)03-0406-07

        引文格式:曾華琳,周昌樂(lè),陳毅東,等.基于特征自動(dòng)選擇方法的漢語(yǔ)隱喻計(jì)算.廈門大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,55(3):406-412.

        Citation:ZENG H L,ZHOU C L,CHEN Y D,et al.Chinese metaphor computation based on automatic feature selection.Journal of Xiamen University(Natural Science),2016,55(3):406-412.(in Chinese)

        猜你喜歡
        機(jī)器學(xué)習(xí)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
        前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
        下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計(jì)算模型
        基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
        基于圖的半監(jiān)督學(xué)習(xí)方法綜述
        機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        国产成人亚洲合色婷婷| 中文字幕精品人妻丝袜| 中文字幕日本韩国精品免费观看 | 无码人妻专区免费视频| 亚洲精品中国国产嫩草影院美女| 狠狠躁夜夜躁人人爽天天不卡| 日本国产一区二区三区在线观看| 少妇高潮惨叫久久久久电影| 国产一区二区三区再现| 国产一区二区三区成人av| 人妻中文久久人妻蜜桃| 久久一区二区视频在线观看| 在线播放av不卡国产日韩| 成人自慰女黄网站免费大全| 亚洲av成人精品一区二区三区| 国语对白做受xxxxx在| 国产av综合影院| 中日韩精品视频在线观看| 中日av乱码一区二区三区乱码| 国产女精品视频网站免费| 无码人妻系列不卡免费视频| 日韩亚洲欧美精品| 亚洲精品综合一区二区| 久久久亚洲av成人乱码| 久久综合九色综合97婷婷| 麻豆免费观看高清完整视频 | 国产成人免费a在线视频| 午夜日本精品一区二区| 日本女优中文字幕有码| 日韩少妇人妻中文视频| 国产大屁股视频免费区| 国产亚洲精品久久久闺蜜 | 国产精品伦一区二区三级视频| 中国内射xxxx6981少妇| 4444亚洲人成无码网在线观看| 亚洲无码夜夜操| 国产一区二区在线观看我不卡| 国产精品人成在线765| 亚洲综合一区二区三区在线观看| 精品国产三级a∨在线欧美| 亚洲美腿丝袜 欧美另类|