亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向不平衡數(shù)據(jù)的隱式篇章關(guān)系分類方法研究

        2015-04-12 11:30:58朱珊珊丁思遠(yuǎn)姚建民朱巧明
        中文信息學(xué)報(bào) 2015年6期
        關(guān)鍵詞:語義分類方法

        朱珊珊,洪 宇,丁思遠(yuǎn),姚建民,朱巧明

        (蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇蘇州215006)

        1 引言

        篇章關(guān)系分類研究旨在自動(dòng)推測同一篇章內(nèi)兩個(gè)文本片段(即“論元”,argument)之間的語義連接關(guān)系。賓州篇章樹庫(Penn Discourse Treebank,PDTB)[1-2]是2008年發(fā)布標(biāo)注具體篇章關(guān)系類型的語言學(xué)資源,其將篇章關(guān)系類型分成三層(如圖1所示):Class層、Type層和Subtype層。Class層包括:Expansion(擴(kuò)展關(guān)系)、Contingency(偶然關(guān)系)、Comparison(對比關(guān)系)和Temporal(時(shí)序關(guān)系);Type層和Subtype層則分別針對上一層進(jìn)行細(xì)分。

        此外,依據(jù)“論元對”關(guān)系類別的不同識(shí)別方式,PDTB又將篇章關(guān)系分成顯式篇章關(guān)系(Explicit Discourse Relation)和隱式篇章關(guān)系(Implicit Discourse Relation)兩種類型。在顯式篇章關(guān)系類型中,兩個(gè)“論元”之間存在連接詞(例如,連接詞“but”,“because”等),可直接根據(jù)連接詞判定篇章關(guān)系;而在隱式篇章關(guān)系類型中,兩個(gè)“論元”之間缺少連接詞等直觀推理線索,無法直接判定篇章關(guān)系,須結(jié)合上下文、句子語義結(jié)構(gòu)等其他信息間接推理。在PDTB語言學(xué)資源中,標(biāo)注者通過在隱式“論元對”中插入一個(gè)連接詞表示具體的篇章關(guān)系類型。本文主要專注于Class層隱式篇章關(guān)系分類問題的研究。例1是從PDTB語料中抽取的具有隱式篇章關(guān)系的文本片段,圖2給出標(biāo)注的連接詞及其對應(yīng)的篇章關(guān)系類別。

        圖1 PDTB篇章關(guān)系體系

        例1 [Mrs.Tom was fired and prosecuted under a South Carolina law that makes it a crime to breach test security.]arg1[Implicit=then][In September,she pleaded guilty and paid a$500 fine]arg2[Implicit=but][She never complained to school officials that the standardized test was unfair]arg3[Implicit=therefore][Do I have much sympathy for her]arg4[Implicit=in fact][Not really]arg5.

        <譯文:依據(jù)南卡羅來納法:違反安全測試是一種違法行為,湯姆小姐被解雇并同時(shí)被起訴?!倦S后在九月份,她承認(rèn)罪行并支付了500美金的罰款?!镜恰克龔臎]有向?qū)W校官員抱怨標(biāo)準(zhǔn)化測試是不公平的?!疽虼恕课彝樗龁??【實(shí)際上】并不是這樣的。>

        圖2 例1中各“論元對”篇章關(guān)系標(biāo)注結(jié)果

        關(guān)于篇章關(guān)系分類的研究已開展多年,在顯式篇章關(guān)系方面,分類精確率已達(dá)93.09%[3]。而在隱式篇章關(guān)系方面,分類精確率仍然較低。主流研究方法主要采用基于語言學(xué)特征的機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)關(guān)系分類,在這種分類方法中,大多數(shù)研究者都假設(shè)參與分類的正類樣本和負(fù)類樣本的數(shù)量是相等的,通過隨機(jī)欠采樣等方法保持?jǐn)?shù)據(jù)平衡。然而隨機(jī)欠采樣方法存在一個(gè)明顯的缺點(diǎn)(注:為表述清楚,本文將樣本中數(shù)量較多的一類稱為多數(shù)類,將樣本數(shù)量較少的一類稱為少數(shù)類):欠采樣過程從多數(shù)類樣本中隨機(jī)選擇與少數(shù)類樣本數(shù)量相等的樣例,致使多數(shù)類樣本中大量有用的樣本被丟棄,在后續(xù)分類過程中未能發(fā)揮作用,從而影響整體的關(guān)系分類性能。

        針對該問題,本文提出一種基于框架語義向量的訓(xùn)練樣本擴(kuò)展方法,旨在充分利用已標(biāo)注的篇章關(guān)系樣本,對不平衡的訓(xùn)練樣本進(jìn)行擴(kuò)展,解決基于不平衡數(shù)據(jù)的隱式篇章關(guān)系分類問題。具體實(shí)現(xiàn)過程中,該方法借助框架語義知識(shí)庫,將篇章關(guān)系樣本表示成框架語義向量,借助框架語義向量,在外部未標(biāo)注數(shù)據(jù)資源中挖掘篇章關(guān)系樣本,實(shí)現(xiàn)對訓(xùn)練樣本的擴(kuò)展,從而解決數(shù)據(jù)不平衡問題。

        本文的組織結(jié)構(gòu)如下:第2節(jié)介紹相關(guān)工作;第3節(jié)描述框架語義知識(shí)庫及框架語義向量;第4節(jié)給出基于框架語義向量的隱式訓(xùn)練樣本集擴(kuò)展方法;第5節(jié)給出實(shí)驗(yàn)結(jié)果及相關(guān)分析;第6節(jié)總結(jié)全文。

        2 相關(guān)工作

        2.1 隱式篇章關(guān)系分類

        基于全監(jiān)督學(xué)習(xí)的隱式篇章關(guān)系分類是目前的主流研究方法,主要包括:Pilter等[4]首次使用PDTB語言學(xué)資源,抽取論元的情感極性,動(dòng)詞類型及上下文特征進(jìn)行關(guān)系分類,最終獲得優(yōu)于隨機(jī)分類的性能,奠定隱式篇章關(guān)系分類研究的基礎(chǔ)。Zhou等[5]根據(jù)語言模型困惑度在兩個(gè)論元之間插入顯式連接詞,并將該連接詞作為額外的分類特征,進(jìn)一步提高隱式篇章關(guān)系的分類性能。Lin等[6]在Pilter的研究基礎(chǔ)上,增加句法特征及依存特征。隨后,Wang等[7]提出基于樹核函數(shù)的隱式篇章關(guān)系分類方法,有效提升句法特征之間的區(qū)分能力,最終在PDTB語料上獲得40.0%的關(guān)系分類性能。Park等[8]采用前向選擇算法對單詞對、動(dòng)詞、極性、句法特征等八種特征進(jìn)行特征選擇,在每種關(guān)系類型上都獲得一個(gè)最優(yōu)的特征集合。Wang等[9]通過SCC(single centroid clustering)聚類算法選擇“典型”的訓(xùn)練樣例,減少噪音文本。近期,Rutherford等[10]使用布朗聚類對特征代替單詞對特征,Li等[11]通過改變句法特征的表示方法,有效解決特征表示的稀疏性問題。

        2.2 不平衡數(shù)據(jù)分類方法

        目前,主流的不平衡數(shù)據(jù)分類方法可分成兩大類:采樣技術(shù)及代價(jià)敏感函數(shù)方法。

        其中,采樣技術(shù)應(yīng)用最為廣泛,主要包括隨機(jī)欠采樣(Random Under-sampling)和隨機(jī)重采樣(Random Over-sampling)兩種方法。詳細(xì)而言,隨機(jī)欠采樣方法從多數(shù)樣本中刪除部分樣例使得樣本分布平衡;而隨機(jī)重采樣方法是從少數(shù)類樣本中隨機(jī)選擇部分樣例進(jìn)行復(fù)制,直到多數(shù)類和少數(shù)類樣本數(shù)量相等。Mani等[12]提出基于K近鄰的欠采樣方法,與隨機(jī)欠采樣方法相比,該方法通過K近鄰算法從多數(shù)類樣本選擇需要?jiǎng)h除的樣例,保留多數(shù)類樣本中有用的分類信息。Lin等[13]將采樣技術(shù)與集成學(xué)習(xí)方法相結(jié)合,從多數(shù)類樣本中抽取子集與少數(shù)類樣本進(jìn)行組合,訓(xùn)練多個(gè)分類器進(jìn)行分類決策。Lin等還提出一種基于平衡-級(jí)聯(lián)算法的不平衡數(shù)據(jù)分類方法,該方法以監(jiān)督學(xué)習(xí)方法為基礎(chǔ),通過訓(xùn)練多個(gè)分類器選擇多數(shù)類樣本中需要?jiǎng)h除的樣例。此外,Chawla等[14]提出基于少數(shù)類合成的過采樣技術(shù)(簡稱SMOTE算法),該方法以少數(shù)類樣本為種子樣例,基于K近鄰算法生成新的少數(shù)類樣例,對少數(shù)類進(jìn)行擴(kuò)展。Han等[15]對SMOTE算法進(jìn)行改進(jìn),對少數(shù)類樣本進(jìn)行歸類,在此基礎(chǔ)上,提出基于邊界-少數(shù)類合成的采樣方法。

        上述采樣技術(shù)主要通過調(diào)整樣本數(shù)量保持?jǐn)?shù)據(jù)平衡,代價(jià)敏感函數(shù)方法則是在分類過程中改變誤分類的代價(jià)函數(shù)[16],保證在多數(shù)類樣本中分錯(cuò)的代價(jià)大于在少數(shù)類樣本中分錯(cuò)的代價(jià)。在此基礎(chǔ)上,后續(xù)研究者提出代價(jià)敏感決策樹和代價(jià)敏感神經(jīng)網(wǎng)絡(luò),進(jìn)一步解決不平衡數(shù)據(jù)分類問題。

        3 框架語義知識(shí)庫及框架語義向量

        3.1 框架語義知識(shí)庫

        框架語義知識(shí)庫(FrameNet)①http://framenet.icsi.berkeley.edu/是基于框架語義學(xué)(Frame Semantics)[17]構(gòu)建的權(quán)威英文語義詞匯資源??蚣苷Z義學(xué)由Fillmore于1992年提出,它是一種通向理解及描寫詞語和語法結(jié)構(gòu)意義的方法。該理論的核心思想是為了理解語言中詞的意義,首先要有一個(gè)概念結(jié)構(gòu),這個(gè)概念結(jié)構(gòu)為詞在語言及言語中的存在和使用提供背景和動(dòng)因。表1給出FrameNet中相關(guān)術(shù)語定義及標(biāo)注示例。從表1中的標(biāo)注示例可以看出,兩個(gè)標(biāo)注示例包含不同的語義信息,但它們具有相同的框架語義,目標(biāo)詞cooks和fry對應(yīng)的框架語義均為APPLY_HEAT,通過框架語義信息,可將兩個(gè)具有不同語義信息的文本片段關(guān)聯(lián)起來。

        表1 FrameNet相關(guān)術(shù)語定義及標(biāo)注示例

        本文引入框架語義,主要?jiǎng)訖C(jī)在于框架語義有助于“論元”語義一級(jí)的描述,對于后續(xù)隱式訓(xùn)練樣本的擴(kuò)展,能夠有效提升“論元對”的挖掘精度與廣度,并提升其分類效率。目前,框架語義學(xué)領(lǐng)域已然形成多種自動(dòng)框架語義分析與識(shí)別工具。本文采用Dipanjan Das等人開發(fā)的SEMFOR①http://www.ark.cs.cmu.edu/SEMAFOR/標(biāo)注工具進(jìn)行框架語義標(biāo)注,該工具對給定的句子進(jìn)行目標(biāo)詞與框架的有效識(shí)別。

        3.2 框架語義向量生成方法

        本文使用SEMAFOR框架語義分析與識(shí)別工具對訓(xùn)練樣本進(jìn)行框架語義標(biāo)注。在此基礎(chǔ)上,將“論元”中的所有框架語義進(jìn)行組合形成框架語義向量,利用該向量表示“論元”,實(shí)現(xiàn)“論元”的抽象描述,從而減少隱式篇章關(guān)系分類任務(wù)的復(fù)雜度。例3為標(biāo)注的“論元對”實(shí)例,Arg1中可識(shí)別出三個(gè)目標(biāo)詞:events,took place和years,其對應(yīng)的框架語義分別為Event,Event和Measure_duration,將它們組合起來形成框架語義向量Sf1;同理Arg2中可識(shí)別出has等五個(gè)目標(biāo)詞,將它們對應(yīng)的框架語義組合起來形成框架語義向量Sf2。

        例3 Arg1:These events took place 35years ago.

        <譯文:這些事件發(fā)生在35年前>

        Sf1:(Event,Event,Measure_duration)

        Arg2:It has no bearingon our work force today.

        <譯文:現(xiàn)在它對工作人員并沒有什么影響>

        Sf2:(Possession,Objective_influence,Working_on,Military,Calendric_unit)

        4 基于框架語義向量的隱式訓(xùn)練樣本集擴(kuò)展方法

        4.1 隱式篇章關(guān)系分類數(shù)據(jù)分析

        本文采用PDTB標(biāo)注的隱式數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,共包含13 815個(gè)實(shí)例。表2給出該數(shù)據(jù)集上四種篇章關(guān)系類別的實(shí)例數(shù)量、在語料中的比例以及正負(fù)類別比例。從表中可以看出,四種篇章關(guān)系類別的實(shí)例數(shù)量相差較大,正負(fù)不平衡比例介于0~2。除了Expansion類別,其余三個(gè)關(guān)系類別(Comparison、Contingency和Temporal)的正例樣本數(shù)量均小于負(fù)例樣本數(shù)量。這種情況容易導(dǎo)致在這三個(gè)類別上訓(xùn)練的分類模型更傾向于將測試實(shí)例判定為負(fù)類,產(chǎn)生較大的誤差,影響隱式篇章關(guān)系分類的整體性能?;诖耍疚慕柚蚣苷Z義知識(shí)庫,對實(shí)例數(shù)量較少的三個(gè)篇章關(guān)系類別進(jìn)行樣本擴(kuò)展,解決隱式篇章關(guān)系分類過程中樣本數(shù)據(jù)不平衡的問題。

        表2 PDTB隱式數(shù)據(jù)集四種篇章關(guān)系分布

        4.2 未標(biāo)注篇章關(guān)系樣本挖掘方法

        本文采用的外部數(shù)據(jù)資源為GIGAWORD紐約時(shí)報(bào)語料,共包含1 298 498篇新聞文本。在進(jìn)行訓(xùn)練樣本擴(kuò)展之前,本文對GIGAWORD中所有文本進(jìn)行切分,為了驗(yàn)證本文的方法能夠有效地選擇與測試樣本語義相近的隱式“論元對”,本文將GIGAWORD樣本分別切分成顯式篇章關(guān)系樣本和隱式篇章關(guān)系樣本,下面詳述這兩種切分方法。

        1)顯式篇章關(guān)系樣本切分

        該方法以PDTB語言學(xué)資源中的Golden連接詞為基礎(chǔ),從GIGAWORD文本中切分獲得顯式篇章關(guān)系樣本,切分后的文本符合以下兩個(gè)條件:

        ·以“論元對”為單元,即包含前置論元Arg1和后置論元Arg2。

        ·Arg2中的第一個(gè)單詞為Golden連接詞②Golden連接詞:指向某一特定篇章關(guān)系的概率大于96%,例如連接詞“now”唯一地指向Temporal(時(shí)序關(guān)系),PDTB共統(tǒng)計(jì)得出87個(gè)Golden連接詞。,且將Golden連接詞作為未標(biāo)注“論元對”的先驗(yàn)知識(shí),“論元對”具有顯式篇章關(guān)系。

        按照上述切分條件,本文共獲得2 520 777個(gè)顯式“論元對”(簡寫為GIGA-Explicit),四種篇章關(guān)系分布比例如圖3所示。圖4為顯式“論元對”數(shù)量較多的Top10Golden連接詞,從圖中可以看出,包含“or”,“so”,“for”等連接詞的顯式“論元對”在語料中所占比例較大,導(dǎo)致Expansion篇章關(guān)系類別在語料中的比例最大(如圖3中Expansion在所有挖掘的GIGA-Explicit篇章關(guān)系樣本中的比例為37.06%)。

        圖3 GIGA-Explicit顯式樣本四種篇章關(guān)系分布情況

        2)隱式篇章關(guān)系樣本切分

        與顯式篇章關(guān)系樣本切分方法類似,該方法將GIGAWORD文本切分成隱式篇章關(guān)系樣本,切分后的文本須滿足以下兩個(gè)條件:

        ·以“論元對”為單元,即包含前置論元Arg1和后置論元Arg2。

        圖4 GIGA_Explicit樣本中顯式“論元對”數(shù)量較多的Top10Golden連接詞

        · “論元對”中不存在連接詞,即“論元對”具有隱式篇章關(guān)系。

        與顯式篇章關(guān)系樣本切分方法的唯一不同的是,該方法不以Golden連接詞為先驗(yàn)知識(shí),“論元對”的篇章關(guān)系類別不確定。此外,在文本切分過程中,本文通過句法分析確保挖掘到的隱式“論元對”符合自然語言規(guī)律。本文最終切分獲得908 142個(gè)隱式“論元對”(簡寫為GIGA-Implicit)。

        4.3 基于框架語義向量的訓(xùn)練樣本集擴(kuò)展方法

        對4.2節(jié)構(gòu)建的兩個(gè)篇章關(guān)系樣本GIGA-Explicit和GIGA-Implicit,本文使用SEMFOR語義框架標(biāo)注工具對所有樣本進(jìn)行標(biāo)注,獲得樣本的框架語義向量。在此基礎(chǔ)上,以PDTB中隱式訓(xùn)練樣本為種子樣例,分別計(jì)算每個(gè)種子樣例的框架語義向量與兩個(gè)篇章關(guān)系樣本中樣例對應(yīng)的框架語義向量之間的語義相似度,根據(jù)相似度計(jì)算結(jié)果排序,選擇與當(dāng)前種子樣例最相似的TopN“論元對”作為擴(kuò)展的訓(xùn)練樣本。其中,語義相似度計(jì)算方法如公式(1)所示,Arg1Sim表示前置論元Arg1框架語義向量之間的余弦相似度,Arg2Sim表示后置論元Arg2框架語義向量之間的余弦相似度,特征權(quán)重使用框架語義在論元中的出現(xiàn)頻數(shù)。圖5為基于GIGA-Explicit顯式樣本擴(kuò)展訓(xùn)練樣本方法的實(shí)例化流程圖。

        圖5 基于GIGA-Explicit顯式樣本擴(kuò)展訓(xùn)練樣本的實(shí)例化說明

        特別地,由于顯式“論元對”和隱式“論元對”之間存在不同的語義特性,在篇章關(guān)系樣本GIGA-Explicit和GIGA-Implicit中挖掘擴(kuò)展“論元對”時(shí),存在以下兩點(diǎn)不同之處:

        在GIGA-Explicit顯式篇章關(guān)系樣本中,“論元對”的篇章關(guān)系類別是確定的。在挖掘過程中,由于存在“噪音”文本,與種子樣例最相似的TopN顯式“論元對”中可能會(huì)出現(xiàn)篇章關(guān)系類別不一致的情況,即當(dāng)前種子樣例的篇章關(guān)系類別為Rx,挖掘到的“論元對”的先驗(yàn)篇章關(guān)系類別為Ry,Rx≠Ry。針對這種情況,本文在選擇擴(kuò)展“論元對”之前,刪除與種子樣例篇章關(guān)系類別不一致的顯式“論元對”,在此基礎(chǔ)上,選擇與種子樣例最相似的TopN顯式“論元對”作為擴(kuò)展樣本。

        在GIGA-Implicit隱式篇章關(guān)系樣本中,“論元對”的篇章關(guān)系類別不確定。根據(jù)Hong等[18]提出的“平行推理機(jī)制”理論,與種子樣例最相似的TopN隱式“論元對”在關(guān)系上是平行的,即TopN隱式“論元對”的篇章關(guān)系與種子樣例的篇章關(guān)系相同,可直接將挖掘到的隱式“論元對”作為擴(kuò)展樣本。

        5 實(shí)驗(yàn)

        5.1 實(shí)驗(yàn)設(shè)置

        本文使用PDTB隱式數(shù)據(jù)集中Section 02~20作為訓(xùn)練數(shù)據(jù)集,Section 21~22作為測試數(shù)據(jù)集,Section 00~01作為驗(yàn)證數(shù)據(jù)集。各數(shù)據(jù)集在四種篇章關(guān)系類別上的分布情況如表3所示。本文使用詞向量(Semantic Vector)①http://nlp.stanford.edu/software/lex-parser.shtml作為分類特征,向量維度設(shè)定為100維。

        表3 實(shí)驗(yàn)數(shù)據(jù)集四種篇章關(guān)系分布

        此外,本文使用LIBSVM(Chang等[19])作為分類器,核函數(shù)選用線性核函數(shù)。針對每種篇章關(guān)系類別,分別訓(xùn)練一個(gè)二元分類器,計(jì)算獲得每個(gè)篇章關(guān)系類別的分類精確率(Accuracy)(如公式(2)所示),公式(2)中TP和TN分別表示被正確分為正例和負(fù)例的個(gè)數(shù)。整體性能評(píng)價(jià)標(biāo)準(zhǔn)使用精確率的宏平均(Micro-average Accuracy)(如公式(3)所示),其中R={Expansion,Comparison,Contingency,Temporal}。

        5.2 實(shí)驗(yàn)系統(tǒng)

        表4列出參與實(shí)驗(yàn)的各分類系統(tǒng),編號(hào)2~9為基于主流不平衡分類方法的實(shí)驗(yàn)系統(tǒng),編號(hào)10~11為本文提出的基于框架語義向量的不平衡隱式篇章關(guān)系分類系統(tǒng),其中Expand-Explicit系統(tǒng)使用GIGA-Explicit顯式篇章關(guān)系樣本,Expand-Implicit系統(tǒng)使用GIGA-Implicit隱式篇章關(guān)系樣本。

        表4 實(shí)驗(yàn)系統(tǒng)

        續(xù)表

        5.3 實(shí)驗(yàn)結(jié)果及分析

        針對每個(gè)種子樣例,本文在外部篇章關(guān)系樣本中選擇與其最相似的TopN“論元對”作為擴(kuò)展樣本,圖6分別給出在Expand-Explicit和Expand_Implicit兩個(gè)實(shí)驗(yàn)系統(tǒng)中參數(shù)N的不同取值對應(yīng)的整體分類性能變化圖。從圖6中可以看出,N取值分別為3和1時(shí),兩個(gè)實(shí)驗(yàn)系統(tǒng)能夠獲得最優(yōu)的分類性能,且在參數(shù)調(diào)整過程中,Expand_Implicit實(shí)驗(yàn)系統(tǒng)的整體分類性能均明顯優(yōu)于Expand-Explicit實(shí)驗(yàn)系統(tǒng)。

        圖6 N的不同取值對應(yīng)的整體分類性能

        圖7為各實(shí)驗(yàn)系統(tǒng)的實(shí)驗(yàn)性能對比情況,從圖中可以看出,與Baseline系統(tǒng)對比,Expand-Explicit實(shí)驗(yàn)系統(tǒng)的實(shí)驗(yàn)性能獲得小幅度的提升,整體分類精確率提升6.75%,Expand_Implicit實(shí)驗(yàn)系統(tǒng)的分類性能提升幅度較大,整體分類精確率提升28.16%。結(jié)合圖6和圖7,分析原因可知,Expand-Explicit實(shí)驗(yàn)系統(tǒng)擴(kuò)展的訓(xùn)練樣本來自GIGA-Explicit篇章關(guān)系樣本,樣本中的實(shí)例包含連接詞,而待擴(kuò)展的原始訓(xùn)練樣本均不包含連接詞,連接詞的缺失導(dǎo)致兩種篇章關(guān)系樣本在語義上存在差異,隨著擴(kuò)展的訓(xùn)練樣本的增加,實(shí)驗(yàn)系統(tǒng)的分類性能有所下降。而在Expand_Implicit實(shí)驗(yàn)系統(tǒng)中,本文方法借助框架語義向量,從GIGA-Implicit篇章關(guān)系樣本中挖掘隱式“論元對”加入訓(xùn)練樣本中,在各個(gè)篇章關(guān)系類別上引入了更多的分類信息,有效地提升了篇章關(guān)系分類性能。

        從圖7中還可以看出,相較于各主流不平衡數(shù)據(jù)分類方法的實(shí)驗(yàn)系統(tǒng),本文性能較優(yōu)的Expand-Implicit實(shí)驗(yàn)系統(tǒng)有效提升了整體分類精確率,與主流方法性能最優(yōu)的基于代價(jià)敏感函數(shù)的Meta-Cost-Sensitive實(shí)驗(yàn)系統(tǒng)進(jìn)行對比,整體分類精確率提升5.19%。分析原因可知,各主流不平衡數(shù)據(jù)分類方法側(cè)重通過采樣或者改變錯(cuò)誤權(quán)重等方法解決訓(xùn)練樣本數(shù)據(jù)不平衡問題,這些方法往往局限在有限的數(shù)據(jù)資源中,忽略了不平衡樣本數(shù)據(jù)本身存在信息不充分的問題,影響篇章關(guān)系分類性能。針對這一問題,本文借助框架語義向量,利用大規(guī)模外部數(shù)據(jù)資源,挖掘有效的隱式篇章關(guān)系樣本,對樣例數(shù)量較少的三個(gè)篇章關(guān)系類別進(jìn)行樣本擴(kuò)展,提升了整體篇章關(guān)系分類性能。實(shí)驗(yàn)結(jié)果也證明本文提出的基于框架語義向量的方法能夠從外部數(shù)據(jù)資源中有效地挖掘隱式篇章關(guān)系樣本,從而對原始訓(xùn)練樣本進(jìn)行擴(kuò)展,輔助篇章關(guān)系分類任務(wù)。

        圖7 各實(shí)驗(yàn)系統(tǒng)性能對比

        表5 各隱式篇章關(guān)系推理系統(tǒng)性能

        此外,表5給出本文性能最優(yōu)的Expand_Implicit實(shí)驗(yàn)系統(tǒng)以及各主流隱式篇章關(guān)系分類系統(tǒng)的實(shí)驗(yàn)性能對比,從表中可以看出,本文提出的基于框架語義向量的隱式訓(xùn)練樣本擴(kuò)展方法性能提升明顯,相較于性能較優(yōu)的Park-SYS實(shí)驗(yàn)系統(tǒng),整體分類精確率提升2.73%,這也進(jìn)一步證明了本文基于框架語義向量進(jìn)行訓(xùn)練樣本擴(kuò)展的方法具有一定的有效性和可行性,與主流方法采用的隨機(jī)欠采樣方法相比,能夠獲得更優(yōu)的分類性能。

        6 總結(jié)

        本文研究隱式篇章關(guān)系分類任務(wù)中的不平衡數(shù)據(jù)分類問題,提出一種基于框架語義向量擴(kuò)展訓(xùn)練樣本的分類方法。實(shí)驗(yàn)結(jié)果顯示,本文方法能夠很好地解決隱式篇章關(guān)系分類任務(wù)中數(shù)據(jù)不平衡的問題,相較于傳統(tǒng)的基于原始訓(xùn)練樣本的采樣方法以及代價(jià)敏感函數(shù)方法,實(shí)驗(yàn)性能獲得顯著提升。

        然而本文方法仍存在不足之處,將論元表示成框架語義向量,可能存在數(shù)據(jù)稀疏問題:統(tǒng)計(jì)發(fā)現(xiàn),論元中識(shí)別出的框架語義平均數(shù)量為六個(gè),在某些文本較短的論元中,由于識(shí)別出的框架語義較少,形成的框架語義向量并不能很好的表示該論元,影響后續(xù)訓(xùn)練樣本擴(kuò)展的精確率?;诖?,在未來工作中,我們將對本文方法進(jìn)行細(xì)化,根據(jù)論元的框架語義數(shù)量對論元進(jìn)行篩選,選擇符合要求的“論元對”,并嘗試采用Stacked Learning、Tri-training等多分類器的學(xué)習(xí)方法實(shí)現(xiàn)隱式篇章關(guān)系分類任務(wù)。

        [1] R Prasad,N Dinesh,A Lee,et al.The Penn Discourse TreeBank 2.0[C]//Proceedings of the 6th International Conference on Language Resources and E-valuation(LREC),2008:2961-2968.

        [2] E Miltsakaki,L Robaldo,A Lee,et al.Sense Annotation in the Penn Discourse Treebank[C]//Proceedings of the Computational Linguistics and Intelligent Text Processing.Springer Berlin Heidelberg,2008:275-286.

        [3] E Pitler,M Raghupathy,H Mehta,et al.Easily Identifiable Discourse Relations[R].Technical Reports(CIS),2008:87-90.

        [4] E Pitler,A Louis,A Nenkova.Automatic Sense Prediction for Implicit Discourse Relations in Text[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP(ACL-AFNLP).2009,2:683-691.

        [5] Z M Zhou,Y Xu,Z Y Niu,et al.Predicting Discourse Connectives for Implicit Discourse Relation Recognition[C]//Proceedings of the 23rd International Conference on Computational Linguistics(COLING).Posters,2010:1507-1514.

        [6] Z H Lin,M Y Kan,H T Ng.Recognizing Implicit Discourse Relations in the Penn Discourse Treebank[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP).2009,1:343-351.

        [7] W T Wang,J Su,C L Tan.Kernel Based Discourse Relation Recognition with Temporal Ordering Information[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics(ACL).2010:710-719.

        [8] J Park,C Cardie.Improving Implicit Discourse Relation Recognition through Feature Set Optimization[C]//Proceedings of the 13th Annual Meeting of the Special Interest Group on Discourse and Dialogue(SIGDIAL).2012:108-112.

        [9] X Wang,S J Li,J Li,et al.Implicit Discourse Relation Recognition by Selecting Typical Training Examples[C]//Proceedings of the 24th International Conference on Computational Linguistics(COLING).2012:2757-2772.

        [10] A T Rutherford,N Xue.Discovering implicit discourse relations through brown cluster pair representation and coreference patterns[C]//Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics(EACL).2014:645-654.

        [11] J J Li,M Carpuat,A Nenkova.Cross-lingual Discourse Relation Analysis:A corpus study and a semi-supervised classification system[C]//Proceedings of the 25th International Conference on Computational Linguistics(COLING).2014:577-587.

        [12] I Mani,J P Zhang.KNN approach to unbalanced data distributions:a case study involving information extraction[C]//Proceedings of Workshop on Learning from Imbalanced Datasets.2003.

        [13] X Y Liu,J Wu,Z H Zhou.Exploratory under-sampling for class-Imbalance learning[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B(Cybernetics),2009,2(39):539-550.

        [14] N V Chawla,K W Bowyer,L O Hall,et al.SMOTE:synthetic minority over-sampling technique[J].Journal of artificial intelligence research,2002:321-357.

        [15] H Han,W Y Wang,B H Mao.Borderline-SMOTE:a new over-sampling method in imbalanced data sets learning[M].Advances in intelligent computing.Springer Berlin Heidelberg,2005:878-887.

        [16] C Elkan.The foundations of cost-sensitive learning[C]//Proceedings of the International joint conference on artificial intelligence(IJCAI).Lawrence Erlbaum Association Ltd,2001,17(1):973-978.

        [17] C Fillmore.Frame semantics[J].Linguistics in the morning calm,1982:111-137.

        [18] Y Hong,X P Zhou,T T Che,et al.Cross-argument inference for implicit discourse relation recognition[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management(CIKM).2012:295-304.

        [19] C C Chang,C J Lin.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology(TIST),2001,2(3):389-396.

        猜你喜歡
        語義分類方法
        分類算一算
        語言與語義
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        av中文字幕潮喷人妻系列| 成人一区二区三区蜜桃| 午夜视频在线观看国产19| 乱老年女人伦免费视频| 亚洲av无码一区二区三区四区 | 日日拍夜夜嗷嗷叫国产| 免费无码午夜福利片69| 国产欧美日韩不卡一区二区三区| 国产主播一区二区三区在线观看| 在线观看一区二区三区在线观看| 欧美牲交a欧美牲交aⅴ| 国产在线无码一区二区三区| 高清高速无码一区二区| 成人大片在线观看视频| 国产乱人偷精品人妻a片| 久久精品亚洲乱码伦伦中文| 国产经典免费视频在线观看| 久久精品女同亚洲女同| 丁香美女社区| 国产一级做a爱免费观看| 久久亚洲精品国产精品婷婷| 日本区一区二区三视频| 国产亚洲美女精品久久久2020| 国产99久久亚洲综合精品| 伊在人亚洲香蕉精品区麻豆| 国产亚洲av综合人人澡精品| 国产激情无码一区二区三区| 免费一级特黄欧美大片久久网| 亚洲精品久久久中文字| 人妻一区二区三区av| 中文字幕一区二区人妻性色| 亚洲VA中文字幕无码毛片春药| 日本av第一区第二区| 亚洲av男人电影天堂热app| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 韩国三级大全久久网站| 日韩精品视频在线观看无| 51国产黑色丝袜高跟鞋| 国精品无码一区二区三区在线看| 精品一区2区3区4区| 放荡的少妇2欧美版|