亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        通用語(yǔ)義角色自動(dòng)標(biāo)注研究

        2012-07-09 01:44:34尹曉麗
        關(guān)鍵詞:句法語(yǔ)義特征

        尹曉麗

        (山西大學(xué)商務(wù)學(xué)院理學(xué)系,山西太原 030031)

        0 引 言

        語(yǔ)義角色標(biāo)注(Semantic Role Labeling,SRL)是目前語(yǔ)義分析的一種主要實(shí)現(xiàn)方式,它也是近年來(lái)自然語(yǔ)言處理領(lǐng)域的一個(gè)研究熱點(diǎn),是信息抽取、信息檢索、閱讀理解問(wèn)答系統(tǒng)等多種自然語(yǔ)言處理技術(shù)的重要基礎(chǔ)。

        文中以Fillmore的框架語(yǔ)義學(xué)[1-3]為理論基礎(chǔ),以漢語(yǔ)真實(shí)語(yǔ)料為依據(jù),由山西大學(xué)2005年開(kāi)始開(kāi)發(fā)的漢語(yǔ)框架網(wǎng)絡(luò)(CFN)知識(shí)庫(kù)[4-5]作為語(yǔ)料庫(kù),以條件隨機(jī)場(chǎng)[6]為基本模型研究了框架語(yǔ)義中通用語(yǔ)義角色的語(yǔ)義角色、短語(yǔ)類(lèi)型和句法功能三層自動(dòng)標(biāo)注問(wèn)題,獲得了較好的實(shí)驗(yàn)結(jié)果。

        1 基于條件隨機(jī)場(chǎng)模型的通用語(yǔ)義角色自動(dòng)標(biāo)注

        通用語(yǔ)義角色的自動(dòng)標(biāo)注包含語(yǔ)義角色、短語(yǔ)類(lèi)型和句法功能標(biāo)注3部分。我們采用層疊式標(biāo)注方法:先標(biāo)注語(yǔ)義角色,再標(biāo)注短語(yǔ)類(lèi)型,最后進(jìn)行句法功能的標(biāo)注。

        1.1 標(biāo)注過(guò)程

        基于條件隨機(jī)場(chǎng)的通用語(yǔ)義角色標(biāo)注過(guò)程主要由以下5個(gè)模塊組成:

        1)預(yù)處理模塊;

        2)語(yǔ)料生成模塊;

        3)模型訓(xùn)練模塊;

        4)標(biāo)注模塊;

        5)評(píng)測(cè)模塊。

        該標(biāo)注過(guò)程如圖1所示。

        圖1 語(yǔ)義角色標(biāo)注過(guò)程流程

        1.2 語(yǔ)料的選取

        語(yǔ)料庫(kù)選用了山西大學(xué)CFN句子庫(kù),其中包含了195個(gè)框架,1 548個(gè)詞元和15 999個(gè)句子,且每個(gè)句子都已經(jīng)進(jìn)行了分詞和詞性標(biāo)注,并且也人工標(biāo)注了框架元素、短語(yǔ)類(lèi)型和句法功能3種信息。我們抽取CFN句子庫(kù)中的含有通用語(yǔ)義角色的句子作為數(shù)據(jù)集,并按9∶1的比例對(duì)句子進(jìn)行了劃分。該語(yǔ)料庫(kù)中共有13個(gè)通用語(yǔ)義角色:time,manr,place,degr,sco_role,part_iter,purp,mns,depic,reci,iter,freq,dui_action。

        1.3 工具的選取

        實(shí)驗(yàn)中使用的是版本為0.42的CRF++軟件包,該軟件包是由Taku Kudo開(kāi)發(fā)的開(kāi)源軟件包。該軟件包被應(yīng)用到了許多序列標(biāo)注任務(wù),如命名實(shí)體識(shí)別、信息抽取、文本語(yǔ)塊分析等。實(shí)驗(yàn)采用了高斯平滑,將平滑參數(shù)C設(shè)置為1.0,然后使用LBFGS進(jìn)行MAP估計(jì)。

        1.4 實(shí)驗(yàn)評(píng)測(cè)標(biāo)準(zhǔn)

        實(shí)驗(yàn)采取兩種不同的測(cè)試性能評(píng)價(jià)指標(biāo)。

        1.4.1 MUC會(huì)議上采用的指標(biāo)

        為了綜合評(píng)價(jià)系統(tǒng)的性能,通常還計(jì)算召回率和準(zhǔn)確率的加權(quán)幾何平均,即F值,它的計(jì)算公式如下:

        式中:β——召回率和準(zhǔn)確率的不同權(quán)重,β越大,Recall對(duì)Fβ的影響越大。通常情況下,β=1,Recall和Precision具有相同的權(quán)重。

        1.4.2 綜合排名法

        根據(jù)實(shí)驗(yàn)結(jié)果,按從大到小的順序排列,依次為1,2,3,…,如果有相同的名次排名相同,最終綜合排名靠前的實(shí)驗(yàn)結(jié)果好。

        2 特征的選取

        通用語(yǔ)義角色自動(dòng)標(biāo)注實(shí)驗(yàn)所使用的特征分為3類(lèi):基本特征、擴(kuò)展特征、規(guī)則特征。

        2.1 基本特征

        基本特征是指詞、詞性和位置。

        詞,分詞后的單個(gè)字,一個(gè)詞或標(biāo)點(diǎn)符號(hào);詞性,詞所對(duì)應(yīng)的詞性;位置,該詞相對(duì)于目標(biāo)詞的位置。

        2.2 擴(kuò)展特征

        擴(kuò)展特征是指句法標(biāo)記、結(jié)構(gòu)標(biāo)記和功能標(biāo)記。

        句法標(biāo)記和結(jié)構(gòu)標(biāo)記都屬于基本塊標(biāo)記,功能塊標(biāo)記[7]是定義在句子層面的句法成分,我們采用清華大學(xué)周強(qiáng)教授提供的基本塊和功能塊標(biāo)注工具[7]對(duì)語(yǔ)料進(jìn)行了基本塊標(biāo)注。

        趙穎澤[8]對(duì)清華大學(xué)的TCT功能塊語(yǔ)料庫(kù)進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)語(yǔ)料中S,P,O,D塊所占的比例達(dá)到了97%,文中在進(jìn)行功能塊標(biāo)注任務(wù)時(shí),僅對(duì)S,P,O,D 4塊識(shí)別。

        2.3 規(guī)則特征

        對(duì)于time,freq,degr,sco_role這4種語(yǔ)義角色,它們經(jīng)常以一定的頻率出現(xiàn),為此,我們引用了詞表信息。

        3 實(shí)驗(yàn)結(jié)果及其分析

        3.1 語(yǔ)義角色標(biāo)注實(shí)驗(yàn)結(jié)果

        由于語(yǔ)義角色標(biāo)注是進(jìn)行短語(yǔ)類(lèi)型標(biāo)注和句法功能標(biāo)注的基礎(chǔ),所以語(yǔ)義角色標(biāo)注的好壞直接影響到短語(yǔ)類(lèi)型和句法功能的標(biāo)注結(jié)果。根據(jù)特征選取的不同,先后進(jìn)行了下面3組實(shí)驗(yàn)。

        我們把只考慮詞、詞性特征的T1模板作為Baseline。

        實(shí)驗(yàn)1:在T1模板的基礎(chǔ)上,加入位置、功能塊、結(jié)構(gòu)標(biāo)記和句法標(biāo)記單個(gè)特征,見(jiàn)表1。

        表1 T1基礎(chǔ)上加入位置、功能、結(jié)構(gòu)、句法特征的模板

        對(duì)這5個(gè)模板的實(shí)驗(yàn)結(jié)果進(jìn)行分析,見(jiàn)表2。

        表2 實(shí)驗(yàn)1的結(jié)果

        由表2可以看出,T3模板的F值綜合排名最好,而且明顯優(yōu)于其它模板;另外,T3模板比T1模板的平均準(zhǔn)確率、召回率和F值都高??梢?jiàn)位置特征是一個(gè)很重要的特征,把它作為一個(gè)必要特征加入實(shí)驗(yàn),稱(chēng)之為Baseline1,下面的實(shí)驗(yàn)都是基于T3模板上進(jìn)行的。

        實(shí)驗(yàn)2:在T3基礎(chǔ)上加入單個(gè)結(jié)構(gòu)標(biāo)記、句法標(biāo)記、功能標(biāo)記特征,并且考慮加入它們的組合特征,見(jiàn)表3。

        表3 實(shí)驗(yàn)2的模板

        對(duì)這8個(gè)模板的實(shí)驗(yàn)結(jié)果進(jìn)行分析,見(jiàn)表4。

        表4 實(shí)驗(yàn)2的結(jié)果

        由表中可見(jiàn),這幾個(gè)模板的綜合排名差異不是很大,它們的平均召回率和平均F值波動(dòng)幅度不到1%,平均準(zhǔn)確率波動(dòng)幅度不到2%。換句話(huà)說(shuō),在T3的基礎(chǔ)上引入結(jié)構(gòu)標(biāo)記、句法標(biāo)記、功能標(biāo)記特征,并沒(méi)使結(jié)果變好,而是隨著特征的增多,測(cè)試平均準(zhǔn)確率、召回率和F值有所下降。主要原因是基本塊和功能塊標(biāo)注工具存在一定的錯(cuò)誤率,實(shí)驗(yàn)用的測(cè)試集都是自動(dòng)標(biāo)注語(yǔ)料,存在部分標(biāo)注錯(cuò)誤,由于誤差累積影響到系統(tǒng)的性能。

        實(shí)驗(yàn)3:由于以上8個(gè)模板差異不是很大,在這8個(gè)模板基礎(chǔ)上,把time,freq,degr,sco_role這4個(gè)語(yǔ)義角色加入規(guī)則特征,即引入詞表信息作為特征進(jìn)行實(shí)驗(yàn),結(jié)果見(jiàn)表5。

        表5 實(shí)驗(yàn)3的結(jié)果

        由表5可見(jiàn),在引入詞表信息作為特征后,time,freq,sco_role這3個(gè)語(yǔ)義角色的平均F值大約提高了1%,4.8%,4.6%,而且綜合排名也優(yōu)于不加詞表特征的排名。只有degr的平均F值降低了不到0.7%,不過(guò)從總體上看,引入詞表特征對(duì)實(shí)驗(yàn)結(jié)果有一定的提高。

        3.2 短語(yǔ)類(lèi)型和句法功能標(biāo)注實(shí)驗(yàn)結(jié)果

        為了進(jìn)行下面的短語(yǔ)類(lèi)型和句法功能的標(biāo)注,我們對(duì)各個(gè)通用語(yǔ)義角色在這13個(gè)模板下分別進(jìn)行了實(shí)驗(yàn),得到每個(gè)語(yǔ)義角色最好的實(shí)驗(yàn)結(jié)果作為短語(yǔ)類(lèi)型標(biāo)注的輸入來(lái)進(jìn)行研究。然后,選取語(yǔ)義角色和短語(yǔ)類(lèi)型雙層標(biāo)注后最好的標(biāo)注結(jié)果進(jìn)行句法功能標(biāo)注。

        最后,把這三重自動(dòng)標(biāo)注實(shí)驗(yàn)的最終結(jié)果進(jìn)行一個(gè)簡(jiǎn)單的比較。其中,Role_F表示語(yǔ)義角色自動(dòng)標(biāo)注結(jié)果的F值,PT_F表示語(yǔ)義角色、短語(yǔ)類(lèi)型自動(dòng)標(biāo)注結(jié)果的F值,TriGroup_F表示語(yǔ)義角色、短語(yǔ)類(lèi)型、句法功能三層標(biāo)注結(jié)果的F值,Error1表示語(yǔ)義角色和短語(yǔ)類(lèi)型標(biāo)注結(jié)果的F值的差值,Error2表示短語(yǔ)類(lèi)型和語(yǔ)義角色三層標(biāo)注F值的差值,Error3表示語(yǔ)義角色和語(yǔ)義角色三層標(biāo)注F值的差值,見(jiàn)表6。

        表6 語(yǔ)義角色、短語(yǔ)類(lèi)型和語(yǔ)義角色三層標(biāo)注的結(jié)果 %

        由表6可以看出,每一層標(biāo)注基本上都存在一個(gè)誤差累積,這也正是層次標(biāo)注的缺陷。對(duì)part_iter和sco_role這兩個(gè)語(yǔ)義角色,它們?cè)谡Z(yǔ)義角色標(biāo)對(duì)的情況下,短語(yǔ)類(lèi)型和句法功能也全部標(biāo)注正確,這跟語(yǔ)義角色本身的定義有很大關(guān)系。而對(duì)于上表中一些差值為負(fù)的情況,則是由在自動(dòng)標(biāo)注過(guò)程中,機(jī)器自動(dòng)找到的個(gè)數(shù)變少,使得準(zhǔn)確率和F值相應(yīng)提高而導(dǎo)致,但這種情況出現(xiàn)的比較少。總體上看,我們?cè)谶M(jìn)行語(yǔ)義角色三層的標(biāo)注獲得了比較好的實(shí)驗(yàn)結(jié)果。同時(shí),語(yǔ)義角色標(biāo)注的結(jié)果直接影響到短語(yǔ)類(lèi)型和句法功能的標(biāo)注,因此,提高語(yǔ)義角色標(biāo)注的結(jié)果是下一步研究的重點(diǎn)。

        4 結(jié) 語(yǔ)

        采用山西大學(xué)開(kāi)發(fā)的漢語(yǔ)框架網(wǎng)絡(luò)知識(shí)庫(kù)作為語(yǔ)料資源,以條件隨機(jī)場(chǎng)為基本模型框架,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)通用語(yǔ)義角色三層標(biāo)注系統(tǒng)。該系統(tǒng)采用層疊結(jié)構(gòu),首先標(biāo)注語(yǔ)義角色,其次標(biāo)注短語(yǔ)類(lèi)型,最后進(jìn)行句法功能的標(biāo)注。從實(shí)驗(yàn)結(jié)果可以看出,基于條件隨機(jī)場(chǎng)的通用語(yǔ)義角色三層自動(dòng)標(biāo)注已經(jīng)表現(xiàn)出了良好的性能。但是,采用層疊式標(biāo)注方法容易產(chǎn)生誤差累積,導(dǎo)致實(shí)驗(yàn)結(jié)果逐步下降。語(yǔ)義角色標(biāo)注的結(jié)果直接影響到短語(yǔ)類(lèi)型和句法功能的標(biāo)注,為此,如何進(jìn)一步提高語(yǔ)義角色標(biāo)注的結(jié)果是以后研究的主要工作。

        [1] Charles J Fillmore.Frame semantics and the nature of language[A]//Annals of the New York Academy of Sciences:Conference on the Origin and Development of Language and Speech[C].1976,280:20-32.

        [2] Charles J Fillmore,Charles Wooters,Collin F Baker.Building a large lexical data bank which provides deep semantics[A]//Proceedings of the 15th Pacific Asia Conference on Language,Information and Computation[C].HongKong,2001:3-26.

        [3] Baker C F,F(xiàn)illmore C J,Lowe J B.The berkeley frameNet project[A]//Boitet C,Whitelock P,eds.Proc.of the ACL&Coling’98.Montreal:ACL,1998:86-90.

        [4] 劉開(kāi)瑛,由麗萍.漢語(yǔ)框架語(yǔ)義知識(shí)庫(kù)構(gòu)建工程[A]//中文信息處理前沿進(jìn)展[C].中國(guó)中文信息學(xué)會(huì)成立二十五周年學(xué)術(shù)會(huì)議論文集,2006,11:64-71.

        [5] 由麗萍.構(gòu)建現(xiàn)代漢語(yǔ)框架語(yǔ)義知識(shí)庫(kù)技術(shù)研究[D]:[碩士學(xué)位論文].上海:上海師范大學(xué),2006.

        [6] John Lafferty,Andrew McCallum,F(xiàn)ernando Pereira.Conditional random fields:Probabilistic Models for Segmenting and Labeling Sequence Data[A]//Proceedings of the 18th International Conference on Machine Learning[C].San Francisco,2001:282-289.

        [7] 周強(qiáng).漢語(yǔ)基本塊描述體系[J].中文信息學(xué)報(bào),2007(3):23-29.

        [8] 趙穎澤.漢語(yǔ)功能塊的自動(dòng)分析[D]:[碩士學(xué)位論文].北京:清華大學(xué),2006.

        猜你喜歡
        句法語(yǔ)義特征
        句法與句意(外一篇)
        述謂結(jié)構(gòu)與英語(yǔ)句法配置
        語(yǔ)言與語(yǔ)義
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        句法二題
        詩(shī)詞聯(lián)句句法梳理
        抓住特征巧觀(guān)察
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        久久精品国产亚洲av夜夜| 丰满精品人妻一区二区| 国产精品国产三级国产a| 色偷偷色噜噜狠狠网站30根| 少妇无码av无码专区| 亚洲av无码一区二区二三区| 国产精品偷伦免费观看的| 国产伦精品一区二区三区在线| 草逼短视频免费看m3u8| 亚洲а∨精品天堂在线| 亚洲夜夜骑| 亚洲色图第一页在线观看视频| 亚洲乱码av中文一区二区| 强开少妇嫩苞又嫩又紧九色| 国产精品久久久久电影网| 久久精品国产乱子伦多人| 国产一区二区资源在线观看| 成人免费无码大片a毛片| 激情偷乱人伦小说视频在线| 无码中文字幕久久久久久| 国产女优一区在线观看| 中文字幕日韩人妻不卡一区| 五月激情婷婷丁香| 国产精品久久国产三级国| 亚洲精品久久久久一区二区| 国产人与禽zoz0性伦| 手机色在线| 日韩av一区二区三区精品久久| 激情五月婷婷一区二区| 久久国产劲暴∨内射| 亚洲高潮喷水中文字幕| 最近亚洲精品中文字幕| 日本熟女人妻一区二区| 中文字幕免费不卡二区| 青草网在线观看| 97人妻精品一区二区三区免费| 精品人妻av区乱码| 亚洲国产成人久久综合一区77| 绿帽人妻被插出白浆免费观看| 新中文字幕一区二区三区| 国产涩涩视频在线观看|