亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于依存樹與規(guī)則相結(jié)合的漢泰新聞事件要素抽取方法

        2018-09-26 11:30:48程良郜洪奎王紅斌
        軟件導(dǎo)刊 2018年7期
        關(guān)鍵詞:自然語言處理泰語規(guī)則

        程良 郜洪奎 王紅斌

        摘要:針對漢泰新聞事件要素抽取進行研究,首先分析漢泰語言特點,發(fā)現(xiàn)泰語的定語、狀語和補語后置與中文語法結(jié)構(gòu)類似,進一步分析發(fā)現(xiàn)漢泰依存結(jié)構(gòu)相同。因此,通過平行句對構(gòu)建漢泰依存樹,再根據(jù)泰語語言特點定義若干規(guī)則,利用依存樹與規(guī)則相結(jié)合抽取泰語句子的主語、賓語和狀語。實驗驗證,泰語主語名詞短語、賓語名詞短語和狀語名詞短語的事件要素抽取正確率分別為62.13%、64.18%和70.21%,說明基于依存樹與規(guī)則相結(jié)合抽取泰語新聞事件元素是可行的。

        關(guān)鍵詞:依存樹;規(guī)則;泰語;要素抽取;自然語言處理

        DOI:10.11907/rjdk.181605

        中圖分類號:TP301

        文獻標(biāo)識碼:A文章編號:1672-7800(2018)007-0049-08

        Abstract:ThisresearchaimstostudytheextractionmethodfornewsinbothChineseandThailanguages.AnanalysisonthecharacteristicsofChineseandThailanguagewascarriedout.Itwasfoundthattheattributive,adverbialandpost-complementweresimilarinbothlanguages,whichfurtherindicatedthatChineseandThailanguagesharedthesamedependencystructure.Therefore,ChineseandThaidependencystructuretreesweredevelopedbyparallelsentences.Then,accordingtotherulesofThailanguagefeatures,subject,objectandadverbialofThaisentenceswereextractedbycombiningdependencytreeandthedefinedrules.TheresearchconfirmedthemainelementsinThainewsincludedsubjectnounphrases,objectnounphrases,andadverbialnounphrases,withthecorrectextractionrateof62.13%,64.18%and70.21%respectively.ItisevidentthatdependencystructuretreeincombinationwithlanguagerulescouldbeappliedinextractingtheelementsinThainews.

        KeyWords:dependencytree;rule;Thailanguage;factorextraction;naturallanguageprocessing

        0引言

        中國作為內(nèi)陸國家與眾多國家接壤,自古以來重視與鄰國的經(jīng)濟合作及文化交流。泰國是中國的鄰居,自1975年雙方建交以來,兩國交流與合作比較密切[1-2]。隨著中國“一帶一路”倡議的提出,兩國之間的交流與合作達(dá)到一個全新高度。兩國人民獲取信息的渠道之一是各種新聞網(wǎng)絡(luò)。但是,網(wǎng)絡(luò)新聞具有海量性和無限性,如何從大量雜亂無章的新聞報道中快速、有效獲取所關(guān)注的新聞信息,已成為當(dāng)前迫切需要解決的問題。因此,開展基于依存樹與規(guī)則相結(jié)合的漢泰新聞事件要素抽取方法研究顯得十分重要。然而,泰語是小語種,應(yīng)用人群有限、技術(shù)不成熟等導(dǎo)致目前關(guān)于泰語事件的研究較少。

        2005年ACE評測會議把事件要素抽取作為事件識別的后續(xù)任務(wù)[3]。事件要素抽取是指從已識別事件的眾多實體中提取出事件的時間(Time)、地點(Place)、參與者(Participants)等信息[4-6]。當(dāng)前國內(nèi)外關(guān)于事件要素抽取的研究主要采用兩種方法:模版匹配方法[7]和機器學(xué)習(xí)方法[8]。模版匹配方法是在模版的指導(dǎo)下進行的,首先要獲取模版,然后再利用獲取的模版抽取事件要素信息。例如:李芳[9]自動抽取新聞報道中提及的事件相關(guān)信息,如時間、地點以及結(jié)果等,具體做法是結(jié)合時間、地點條件完成事件要素抽取任務(wù),在特定領(lǐng)域?qū)嶒炐Ч^為理想,但缺點是同一事件信息合并會出現(xiàn)問題;付劍鋒[10]運用基于特征加權(quán)的事件要素識別方法,實驗之前首先改良ReliefF特征選擇算法,其次根據(jù)改良后的ReliefF特征選擇算法(FWA)綜合考慮各個特征對聚類的影響,進而分配相應(yīng)的權(quán)值,然后利用K-Means算法對抽取的事件要素進行聚類,最終完成事件要素抽取,但是該方法采用FWEAI算法進行聚類,需要人工干預(yù)。

        由于規(guī)則是根據(jù)人的思維制定的,總體來說采用模式匹配方法進行事件要素抽取具有準(zhǔn)確率較高(如果首先定義的模式非常準(zhǔn)確)并且知識表現(xiàn)直觀、自然的優(yōu)點,有利于了解和推理。但是該方法依賴于具體的單一語言和相關(guān)領(lǐng)域及文本格式,可移植性差、制作費時費力且容易產(chǎn)生錯誤,更重要的是只有經(jīng)驗豐富的語言學(xué)家才能完成。況且語言復(fù)雜多變,因此制作的抽取模式不可能包含所有事件類型,當(dāng)轉(zhuǎn)換語料時,由于不同語言結(jié)構(gòu)特點,需要重新制作模式,因此性價比不高。

        因此,部分學(xué)者轉(zhuǎn)向機器學(xué)習(xí)方法研究事件要素的獲取。例如:Ahd[11]在2006年首次提出采用多元分類器識別事件要素,并且在ACE英文語料上做了相應(yīng)測試,結(jié)果較為理想,但是存在數(shù)據(jù)的正反例不平衡及多元分類器數(shù)量眾多等問題。趙妍妍[12]在Ahd實驗基礎(chǔ)上進行相應(yīng)改進,將不同類別中相同的事件要素進行合并,并且在ACE中文語料上取得了不錯成果。丁效[13]采用最大熵作為分類器進行事件要素識別,但是該方法依賴具體的語料。Saeedi[14]、Wang[15]和楊爾弘[16]把事件要素的抽取問題進行相應(yīng)轉(zhuǎn)化,使其轉(zhuǎn)化為分類問題,但是分類器構(gòu)建與特征選擇等需要大量人力和物力。機器學(xué)習(xí)方法具有良好的健壯性和靈活性,且比較客觀,不需要過多的人工干預(yù)以及領(lǐng)域?qū)<抑R,因此實驗召回率較高。但是由于語料庫資源有限導(dǎo)致數(shù)據(jù)稀疏,從而引發(fā)準(zhǔn)確率較低和開銷巨大等問題,且還需要龐大的語料庫資源。目前泰語領(lǐng)域研究成果只有少量詞法層面和語料庫構(gòu)建等基礎(chǔ)資源構(gòu)建層面的研究,而事件相關(guān)研究較少。比如:趙治鵬[17]采用機器學(xué)習(xí)方法實現(xiàn)泰語分詞;KessarapornSuesatpanit等[18]通過泰語字符集信息實現(xiàn)泰語分詞;CanasaiKruengkrai等[19]通過詞和字符簇的混合模型實現(xiàn)泰語分詞。同時,泰語領(lǐng)域研究成果大都采用有監(jiān)督的機器學(xué)習(xí)方法,需要依賴高質(zhì)量的泰語訓(xùn)練語料,開銷較大,并且因資源稀少而較難獲得。上述采用機器學(xué)習(xí)識別事件要素的方法,都是采用把候選事件要素以及相關(guān)信息作為特征進行訓(xùn)練分類器,取得了較好成績;但是如果事件要素不是某一類不變的實體信息,而是泛化的相關(guān)內(nèi)容,則采用分類器識別事件要素效果較差。

        針對上述事件要素研究現(xiàn)狀及泰語研究存在的問題,本文采用依存樹與模版匹配相結(jié)合可以很好地抽取漢泰事件要素信息。漢語和泰語依存關(guān)系結(jié)構(gòu)[20]相同,在獲取漢泰平行事件句對語料的基礎(chǔ)上,首先通過構(gòu)建漢語依存樹,然后將其映射為泰語依存樹,并且根據(jù)泰語語言特點定義若干規(guī)則,最后利用泰語依存樹與定義規(guī)則相結(jié)合完成泰語事件要素抽取任務(wù)。本文基于依存樹與規(guī)則相結(jié)合的漢泰新聞事件要素抽取方法,在漢泰平行事件句對的語料基礎(chǔ)上,借助中文事件較為成熟的技術(shù),從非結(jié)構(gòu)新聞文本中抽取出事件要素信息并以結(jié)構(gòu)化形式展現(xiàn),具有重要價值。

        1研究思路與方法

        事件要素提取作為事件抽取的后續(xù)任務(wù),是從識別的事件中把人物、時間、地點等信息提取出來。本文研究重點是事件要素抽取,即抽取出事件的時間、地點、參與者等信息。由于泰語是小語種,當(dāng)前關(guān)于泰語的研究僅僅局限在詞法等方面,泰語事件研究較少及泰語語料資源有限導(dǎo)致直接開展泰語研究會面臨許多困難,因此需要借助漢語較為成熟的事件技術(shù)進行泰語事件研究。本文的事件要素抽取任務(wù)從本質(zhì)上說,與中文微博中的情感要素抽取任務(wù)相同,都是識別要素信息。張凌[21]根據(jù)中文語言結(jié)構(gòu)特點提出了基于模版和依存分析相結(jié)合的情感要素抽取方法,并通過實驗論證該方法可以有效提高情感要素抽取結(jié)果。但是泰語與漢語語言結(jié)構(gòu)不同,泰語中定語、狀語和補語是后置的語言。目前的規(guī)則在泰語中不適用或者太少,不能充分識別泰語事件要素,因此需要分析泰語語言,制定若干針對泰語事件要素抽取的規(guī)則,最后根據(jù)制定的規(guī)則與依存分析相結(jié)合進行泰語事件要素抽取。但是本文研究卻又不同于張凌的單語情感要素抽取,具體包括以下兩個難點:①泰語目前沒有依存分析樹庫,需要構(gòu)建依存樹庫;②規(guī)則模版制定需要考慮漢泰語言結(jié)構(gòu)特點,制定適用于泰語的事件要素抽取規(guī)則。

        針對上述問題①,查閱文獻[20]發(fā)現(xiàn)漢語與泰語的依存關(guān)系相同,因此可以根據(jù)哈工大語言云直接得到漢語依存樹,然后將其直接映射為泰語依存樹;針對上述問題②,根據(jù)文獻[22-24]總結(jié)及咨詢泰國留學(xué)生泰語語言結(jié)構(gòu)特點,綜合整理制定若干事件要素抽取規(guī)則,最后將漢語映射得到的泰語依存樹與本文定義的若干規(guī)則相結(jié)合進行事件要素抽取。

        通過上述分析,本文采用基于依存樹與規(guī)則相結(jié)合的漢泰新聞事件要素抽取方法,在現(xiàn)有漢泰平行事件句對資源的基礎(chǔ)上,展開對泰語新聞事件要素抽取研究,其任務(wù)是從泰語新聞句的眾多實體中抽取出真正的泰語新聞事件要素。圖1為泰語事件要素抽取整體流程,主要分為3個模塊:語料預(yù)處理模塊、依存樹構(gòu)建模塊、事件要素抽取模塊。本文圍繞該流程具體闡述如何抽取泰語事件要素,并進行實驗驗證。

        2語料預(yù)處理模塊

        2.1漢泰語言結(jié)構(gòu)特點

        漢語和泰語一樣都屬于漢藏語系。漢語和泰語雖然在句法結(jié)構(gòu)上有許多相似之處,但是兩者畢竟屬于不同國家語言,因此也存在較多差異[25-26]。

        2.1.1相似性

        兩者之間的相似性主要體現(xiàn)在以下幾個方面:

        (1)漢語和泰語在構(gòu)詞方面均使用復(fù)合法構(gòu)詞。最常見的是新詞全部以詞根作為基礎(chǔ)進行構(gòu)詞。例如:漢語中以“電”作為基礎(chǔ)可以構(gòu)建許多新詞:“電話/電腦/電視”;泰語中的“(電)”構(gòu)建的新詞有:“(電器)/(電動車)”等。

        (2)漢語和泰語在表達(dá)方式上均缺少詞語的形態(tài)變化,在語法上依賴語序和虛詞。例如:漢語:“我昨天在操場打了籃球”;“我今天也在操場打了籃球”。泰語:“(我昨天在操場打了籃球)”;“(我今天也在操場打了籃球)”。

        (3)泰語句子與漢語句子基本語言結(jié)構(gòu)一樣,均含有主語、謂語、賓語、定語、狀語、補語。例如:漢語:“清晨的微風(fēng)輕輕地吹走鮮花上的露珠點點”。主語:“微風(fēng)”;謂語:“吹走”;賓語:“露珠”;定語:“清晨的、鮮花上的”;狀語:“輕輕地”;補語:“點點”。泰語:“”。主語:“”;謂語:“”;賓語:“”;定語:“、”;狀語:“”;補語:“”。

        (4)漢語和泰語中較短的句子經(jīng)過擴展都可以轉(zhuǎn)化為較長的句子,而且詞序保持不變。例如:漢語:“來自美國的留學(xué)生學(xué)習(xí)漢語。”對應(yīng)的泰語翻譯:“留學(xué)生的來自美國學(xué)習(xí)漢語?!睆纳鲜龇治隹芍?,詞序還是“主語+謂語+賓語”結(jié)構(gòu)。

        (5)兩種語言的定語、狀語和補語都有標(biāo)志詞匯。例如在漢語中定語后面通常會有“的”、狀語后面有“地”、補語之前有“得”等標(biāo)志信息。在泰語中,定語的標(biāo)志詞是“”,狀語的標(biāo)志詞是“”,補語的標(biāo)志詞是“”。

        2.1.2差異性

        泰語中定語、狀語和補語的位置不同造成兩種語言在語法結(jié)構(gòu)上存在一些差異性。主要分以下幾種情況:

        (1)漢語中定、狀語和補語是前置的(即為在中心詞前面),而泰語中定語、狀語和補語均是后置的(即為在中心詞之后)。例如:漢語:“清晨的微風(fēng)輕輕地吹走鮮花上的露珠點點?!碧┱Z:“微風(fēng)()清晨的()吹走()輕輕地()露珠()點點()鮮花上的()”。

        (2)泰語中否定的狀語在中心詞前面,其余狀語在中心詞后面。例如:“(爸爸)(我的)(來)(從不)(年邁)。

        (3)泰語中地點狀語通常在謂語動詞后面。例如:“(我)(打籃球)(常常)(在操場)”。

        (4)泰語中時間狀語表達(dá)式在句首或者句尾,并且從小到大為日、月、年。例如:漢語:“2005年7月倫敦發(fā)生自殺式爆炸襲擊事件?!睂?yīng)的泰語:“(7月)2005(2005年)(發(fā)生)(事件)(爆炸襲擊)(自殺式)(倫敦)”。

        2.2漢泰平行事件句對語料處理

        本文語料中的一部分是通過網(wǎng)上爬取的漢泰雙語新聞?wù)Z料,其中新聞?wù)Z料包括經(jīng)濟、軍事、娛樂、教育和科技等較多方面,另外一部分語料來源于實驗室收集的語料,具有普遍性和代表性。對獲取的語料進行分詞、去停用詞、詞對齊、篩選事件和統(tǒng)計歧義事件句等預(yù)處理,從而獲得30000個漢泰平行事件句對語料資源。其中,中文分詞工具采用的是哈工大語言云,泰語分詞選用實驗室趙世瑜[27]做的分詞工具,詞對齊采用giza++對獲取的漢泰平行事件句對進行處理,最后建立數(shù)據(jù)信息模型。例如:

        漢語:“中國海軍艦隊訪問倫敦市?!?/p>

        針對上述例句分別利用哈工大語言云和趙世瑜開發(fā)的分詞工具進行分詞處理,得到相應(yīng)結(jié)果:

        漢語:“中國海軍艦隊訪問倫敦市?!?/p>

        經(jīng)過上述分詞處理得到相應(yīng)的分詞結(jié)構(gòu),針對該分詞結(jié)構(gòu)采用giza++進行漢泰雙語詞對齊,如圖2所示。

        3依存樹構(gòu)建模塊

        3.1泰語依存樹標(biāo)注規(guī)范

        根據(jù)上文分析,漢泰語言結(jié)構(gòu)相同,都是典型的主謂賓結(jié)構(gòu),但是泰語中定語、狀語和補語是后置的語言,泰語依存樹的標(biāo)注規(guī)范與漢語大致相同,表1給出若干種泰語標(biāo)注規(guī)范。

        3.2漢語-泰語依存樹構(gòu)建方法

        依存分析本質(zhì)是借助工具對語言進行剖析,尋找語言單位之間的依存關(guān)系,從而揭露語言的句法結(jié)構(gòu)[28]。從定義上說,依存分析就是借助句法分析器正確地定位句子中的“主謂賓”、“定狀補”以及它們之間的關(guān)系,在依存樹中可以直接找到句子的“主謂賓”。付劍鋒[29]采用依存分析首次進行漢語事件識別,該方法僅僅考慮觸發(fā)詞及其余詞語之間的關(guān)系作為分類器的特征,沒有具體考慮依存樹圖中相應(yīng)的主語、謂語和賓語結(jié)構(gòu)。本文根據(jù)定義的事件要素及依存樹結(jié)構(gòu)特點綜合考慮,最終完成事件要素抽取工作。

        漢泰兩種語言都是典型的“主謂賓+定狀補”結(jié)構(gòu),而且基本結(jié)構(gòu)都是主謂賓結(jié)構(gòu),漢泰兩種語言結(jié)構(gòu)最大不同是泰語中定語、狀語和補語是后置的。研究發(fā)現(xiàn)漢泰依存關(guān)系是相同的[20],因此根據(jù)構(gòu)建的漢語依存樹直接映射得到泰語依存樹,從而實現(xiàn)泰語依存樹的構(gòu)建。

        例如:“中國海軍艦隊訪問倫敦市()”。采用哈工大語言云對該句建立中文依存樹,如圖3所示。

        通過上述分析可知,漢語和泰語依存關(guān)系是相同的,接下來把漢語依存關(guān)系映射到泰語句子上生成泰語依存樹,圖4為漢泰依存樹,圖5為漢泰語義依存樹,表2為文本格式依存樹。

        4事件要素抽取模塊

        4.1事件要素抽取定義

        在依存樹中,事件要素通常由主語、賓語和狀語組成,其中定語、謂語和補語不充當(dāng)事件要素成分,因此本文主要工作是對主語、賓語和狀語進行分析。事件要素抽取前提是該句必須為事件句,本文在實驗室前期研究基礎(chǔ)上[30],已經(jīng)正確識別出事件,進行事件要素的抽取。本文定義的事件要素主要包括人物、時間和地點,將本文定義的事件要素和依存樹結(jié)構(gòu)進行匹配以幫助抽取主語名詞短語、賓語名詞短語和狀語短語,從而完成事件要素的抽取。表3是漢泰雙語平行事件句對資源中的部分語料;表4給出定義事件類別及其對應(yīng)的事件要素具體內(nèi)容。

        4.2基于依存樹的事件要素抽取規(guī)則制定

        在事件元素的抽取中,通過構(gòu)建依存樹可以直接獲取對應(yīng)事件句中的主語、賓語和狀語等信息。但是在一些特殊情況下,有些事件要素不僅僅只是主語、賓語和狀語,還包含其它信息,因此無法根據(jù)依存樹直接獲取主語、賓語和狀語等信息??偨Y(jié)文獻[22-24]及咨詢泰國留學(xué)生泰語語言結(jié)構(gòu)和語法等特點,定義若干規(guī)則以輔助事件要素信息的獲取。下文為根據(jù)上述文獻以及泰語語言特點進行設(shè)計的若干條主語事件要素抽取規(guī)則、賓語事件要素抽取規(guī)則和狀語事件要素抽取規(guī)則。

        4.2.1主語規(guī)則

        規(guī)則一:泰語語言結(jié)構(gòu)是主謂賓結(jié)構(gòu),謂語為觸發(fā)詞,謂語把主語和賓語分離,因此可以根據(jù)依存樹直接抽取主語。在泰語中謂語通常也由動詞充當(dāng),研究發(fā)現(xiàn)在依存樹中觸發(fā)詞就是動詞,因此可以根據(jù)這一特性確定事件觸發(fā)詞和謂語,從而把事件句分離,進而直接抽取主語要素。

        例如:“泰國加強同中國的合作()”,通過依存樹可以發(fā)現(xiàn)觸發(fā)詞“加強()”的主語是“泰國()”;其對應(yīng)的依存分析為圖6。

        規(guī)則二:抽取偏正短語作為主語。若句子中主語成分由偏正名詞組成,可將偏正短語直接作為事件的主語。例如:“熬夜通宵的小李開車造成交通事故()”,在該句子中,根據(jù)依存樹可知參與者事件要素為:小李(XiaoLi),但是分析可知真正參與者事件要素為:熬夜通宵的小李(XiaoLi)。因此把偏正短語即“熬夜通宵的小李(XiaoLi)作為主語事件要素”。圖7為具體依存分析。

        規(guī)則三:抽取并列短語作為主語。若將名詞并列成分作為主語,可以直接把觸發(fā)詞左邊的并列短語作為事件的主語。例如:“在經(jīng)濟領(lǐng)域,中國和泰國加強了緊密合作()”,在該句子中,觸發(fā)詞為“加強()”,通過分析可知主語為“中國和泰國()”。圖8為具體依存分析。

        規(guī)則四:抽取介賓短語作為事件的主語。針對依存樹中主語成分缺失的情況,直接抽取觸發(fā)詞左邊的介賓短語作為主語。例如:“關(guān)于這起嚴(yán)重的交通事故發(fā)生在山東的濟南()”。通過分析介詞“關(guān)于()”和觸發(fā)詞“發(fā)生()”,分析可知主語是介詞賓語“關(guān)于這起嚴(yán)重的交通事故()”。圖9為具體依存分析。

        規(guī)則五:對于復(fù)合句,抽取前置分句主語作主語。該規(guī)則是根據(jù)分句獲得觸發(fā)詞,把前面分句的并列成分作為后一個分句的主語。例如:“小明和小李交談,聊到小張(XiaoMingXiaoLiXiaoZhang)”,在該例句中,無法找到觸發(fā)詞“聊到()”的主語,但是通過前面觸發(fā)詞“交談()”可知,主語為“小明和小李(XiaoMingXiaoLi)”。圖10為具體依存分析。

        4.2.2賓語規(guī)則

        規(guī)則六:泰語語言結(jié)構(gòu)是主謂賓結(jié)構(gòu),謂語為觸發(fā)詞,謂語把主語和賓語分離,因此可以根據(jù)依存樹直接抽取賓語。在泰語中謂語通常也由動詞充當(dāng),研究發(fā)現(xiàn)在依存樹中觸發(fā)詞就是動詞,因此可以根據(jù)這一特性確定事件觸發(fā)詞和謂語,從而把事件句分離為3部分,進而直接抽取賓語要素。例如:“中國海軍訪問倫敦市()”,通過依存樹可以發(fā)現(xiàn)觸發(fā)詞“訪問()”的賓語是“倫敦市()”。圖11為具體依存分析。

        規(guī)則七:針對復(fù)合句,抽取后置分句賓語作賓語。該規(guī)則是根據(jù)分句獲得觸發(fā)詞,把后面分句的賓語成分作為前一個分句的賓語。例如:“小明和小李交談,聊到小張(XiaoMingXiaoLiXiaoZhang)”,在該例句中,無法找到觸發(fā)詞“交談()”的賓語,但是通過后面觸發(fā)詞“聊到()”可知,賓語為“小張(XiaoZhang)”,因此可將后面的賓語直接作為前面事件的賓語。具體依存分析如圖10所示。

        規(guī)則八:抽取并列短語作為賓語。若將名詞并列成分作為賓語,可以直接把觸發(fā)詞右邊的并列短語作為事件的賓語。例如:“2005年7月倫敦發(fā)生自殺式爆炸襲擊事件造成50多人死亡和70多人受傷(720055070)”,在該句子中,觸發(fā)詞為“發(fā)生()”,然而依存樹中的直接賓語為“死亡()”,通過分析可知賓語為“50多人死亡和70多人受傷(5070)”,因此設(shè)置規(guī)則規(guī)定并列短語為賓語。圖12為具體依存分析。

        規(guī)則九:抽取偏正短語作為賓語。若句子中賓語成分由偏正名詞組成,可以把偏正短語直接作為事件的賓語。例如:“重大交通事故發(fā)生于道路曲折的四川()”。通過分析可知該句子的賓語為“道路曲折的四川()”,但是依存樹中的直接賓語為“四川()”。設(shè)置規(guī)則規(guī)定偏正短語為事件的賓語,圖13為具體依存分析。

        規(guī)則十:抽取介詞短語作為事件的賓語。針對在依存樹中賓語成分不完整的情況,直接抽取介賓短語作為賓語。例如:“中國改革了關(guān)于醫(yī)療方面存在的問題()”,通過分析可知該句子的賓語應(yīng)該為“關(guān)于醫(yī)療方面存在的問題()”,但是依存樹中的直接賓語為“問題()”。因此,設(shè)置規(guī)則規(guī)定介詞短語為事件的賓語。圖14為具體依存分析。

        4.2.3狀語規(guī)則

        規(guī)則十一:直接抽取句子首部和句子尾部時間狀語。泰語中表示時間的狀語通常放在句子首部和句子尾部,并且由時間短語構(gòu)成,可直接抽取作為時間要素。例如:“2005年7月倫敦發(fā)生自殺式爆炸襲擊事件造成50多人死亡和70多人受傷(20055070)”,通過分析直接把“2005年7月(2005)”作為時間事件要素。具體依存分析如圖12所示。

        規(guī)則十二:直接抽取有“在()+介詞短語”的句子作狀語,使其擔(dān)當(dāng)?shù)攸c要素。泰語中表示地點的事件要素通常由“在()+介詞短語”構(gòu)成。例如:“2004年12月26日在印度洋發(fā)生海嘯(262004)”,例中“印度洋()”是該事件的地點要素信息,直接抽取作為該事件的地點要素。圖15為具體依存分析。

        規(guī)則十三:直接抽取動詞后面的地點狀語。泰語中表示地點的狀語通常位于動詞后面,漢語則相反。例如:“我常常在食堂吃飯()”,例中食堂是觸發(fā)詞“吃()”的地點狀語,因此直接抽取“食堂()”作為地點要素信息。圖16為具體依存分析。

        規(guī)則十四:直接抽取表示處所或方向的狀語作為地點要素。例如:“我們屋里聊()”,例中“屋里()”是狀語,可以作為地點要素,因此直接抽取作為地點要素信息。圖17為具體依存分析。

        4.3基于依存樹與規(guī)則相結(jié)合的事件要素抽取

        上文介紹了漢泰依存樹構(gòu)建及本文定義的事件要素抽取規(guī)則,下文從事件要素抽取任務(wù)(人物、時間、地點)出發(fā),最終完成事件要素抽取。例如,給出一則漢泰交通事故類事件的依存分析樹(見圖18)。

        漢語:“2017年11月18日18時在昆明市官渡區(qū)發(fā)生交通事故;事故共造成2人死亡和4人受傷?!?/p>

        泰語:“1818201724”

        對該例子采用依存分析可知,其符合規(guī)則八、規(guī)則十一和規(guī)則十二,采用上述規(guī)則最終完成事件要素抽取任務(wù)。實驗驗證本文定義的規(guī)則是合理的,可以識別出事件類型下的事件要素信息,如表5所示。

        5.1實驗語料

        實驗所用語料為經(jīng)過處理的漢泰平行事件句對語料,其中共有漢泰平行事件句對30000句。圖19所示為部分平行事件句對語料。

        對上述語料進行預(yù)處理,經(jīng)過預(yù)處理后才能獲得本文最終需要的語料資源,處理后最終部分語料如圖20所示。

        5.2實驗評價標(biāo)準(zhǔn)

        根據(jù)上述語料,結(jié)合本文提出的方法,分別完成主語、賓語和狀語短語模塊抽取。其中采用準(zhǔn)確率、召回率和F值作為評價指標(biāo)。

        準(zhǔn)確率(P)=正確識別的事件要素識別的事件要素總數(shù)

        召回率(R)=正確識別的事件要素新聞中事件要素總數(shù)

        F值=2*P*RP+R

        5.3實驗結(jié)果及分析

        首先,對獲取的漢泰平行事件句對語料進行預(yù)處理操作,得到本文實驗所需語料;其次把漢語依存樹映射為泰語依存樹,然后結(jié)合泰語語言結(jié)構(gòu)特點制定若干事件要素抽取規(guī)則;最后將上述構(gòu)建的泰語依存樹與制定的規(guī)則相結(jié)合,在預(yù)處理后的語料上進行泰語事件要素抽取。本文實驗結(jié)果如表6所示。

        從表6能夠得出以下結(jié)論:狀語短語抽取效果最好,主語短語和賓語短語效果較差。這是由依存樹結(jié)構(gòu)決定的,由于依存樹分析詞語之間的相互依存關(guān)系,如果某個名詞短語之間的依存關(guān)系出現(xiàn)錯誤,則會對與其有直接或間接依賴關(guān)系的詞語產(chǎn)生巨大影響,因此導(dǎo)致主語名詞短語和賓語名詞短語效果較差。

        6結(jié)語

        本文結(jié)合漢泰語言結(jié)構(gòu)特點提出了14條依靠依存樹的泰語新聞事件元素抽取規(guī)則,該規(guī)則通過語義層對泰語新聞進行分析,再利用依存樹與本文定義的規(guī)則相結(jié)合完成事件要素提取。實驗結(jié)果表明,該方法可以快速定位到泰語句子的句法成分,有效抽取泰語新聞事件元素。但是由于泰語比較復(fù)雜,本文提出的規(guī)則有限,因此本文提出的方法應(yīng)用領(lǐng)域也有限。下一步工作是繼續(xù)分析泰語語言,挖掘和制定更多規(guī)則進行泰語事件要素抽取。

        參考文獻:

        [1]朱振明.中泰建交以來中泰關(guān)系的回顧與展望[J].東南亞南亞研究,2000(2):24-32.

        [2]梁源靈.中泰經(jīng)貿(mào)關(guān)系的回顧與展望[J].東南亞縱橫,2000(s2):9-15.

        [3]DODDINGTONG,MITCHELLA,PRZYBOEKIM.Theautomaticcontentextractionprogram-tasks,dataandevaluation[C].ProcLrecLisbon,2004:837-840.

        [4]ALLANJ,GUPTAR,KHANDELWALV.Temporalsummariesofnewstopics[C].InternationalAcmSigirConferenceonResearch&DevelopmentinInformationRetrieval;,2001:10-18.

        [5]HANB,GATESD,LEVINL.Fromlanguagetotime:atemporalexpressionanchorer[C].ProceedingofThirteenthInternationalSymposiumonTemporalRepresentationandReasoning,2006:196-203.

        [6]MANII,WILSONG.Robusttemporalprocessingofnews[C].Proceedingsofthe38AnnualMeetingonAssociationforComputationalLinguistics,2000:69-76.

        [7]YANKOVAM,BOYTCHEVAS.Focusingonscenariorecognitionininformationextraction[C].TenthConferenceonEuropeanChapteroftheAssociationforComputationalLinguistics,2003:41-48.

        [8]SURDEANUM,HARABAGIUS,WILLIAMSJ,etal.Usingpredicate-argumentstructuresforinformationextraction[C].ACL'2003Proceedingsofthe41stAnnualMeeting,2003:8-15.

        [9]李芳,毛順福,蔣德良,等.中文新聞事件要素自動抽取研究[D].上海:上海交通大學(xué),2007.

        [10]付劍鋒,劉宗田,劉煒,等.基于特征加權(quán)的事件要素識別[J].計算機科學(xué),2010,37(3):239-241.

        [11]AHND.Thestagesofeventextraction[C].ProceedingsoftheWorkshoponAnnotatingandReasoningaboutTimeandEvents,2006:1-8.

        [12]趙妍妍,萬翔.中文事件抽取技術(shù)研究[J].中文信息學(xué)報,2008,22(1):3-8.

        [13]丁效.音樂領(lǐng)域典型事件抽取方法研究[J].中文信息學(xué)報,2011:25(2):15-20.

        [14]SAEEDIP.FeatureengineeringusingshallowparsinginargumentclassificationofPersianverbs[C].Proceedingsofthe16thCSIInternationalSymposiumonArtificialIntelligenceandSignalProcessing,2012:333-338.

        [15]WANGW.Chinesenewsevent5WLHelementsextractionusingsemanticrolelabeling[C].ProceedingsoftheThirdInternationalSymposiumonInformationProcessing,2010:484-489.

        [16]楊爾弘.突發(fā)事件信息提取研究[D].北京:北京語言大學(xué),2005.

        [17]趙治鵬.采用機器學(xué)習(xí)方法實現(xiàn)泰語分詞[D].昆明:云南大學(xué),2014.

        [18]SUESATPANITK.Thaiwordsegmentationusingcharacter-levelinformation[C].InterBEST2009ThaiWordSegmentationWorkshop,2009:18-23.

        [19]KRUENGKRAIC.ConstructionofThailexiconfromexistingdictionariesandtextsontheweb[C].IEICE-TransactionsonInformationandSystems,2006:2286-2293.

        [20]陶廣奉.基于跨語言遷移學(xué)習(xí)的泰語依存句法解析方法研究[D].昆明:昆明理工大學(xué),2017.

        [21]張凌.基于詞性模板與依存分析的中文微博情感要素抽取[J].計算機科學(xué),2015(42):474-478.

        [22]鄧麗娜.泰語與漢語的同異性與對泰漢語教學(xué)[J].成都大學(xué)學(xué)報:教育科學(xué)版,2008,22(4):64-67.

        [23]柯偉智.漢語結(jié)果補語與泰語對應(yīng)形式的對比研究[D].北京:北京大學(xué),2013.

        [24]邱魯陽.漢泰語中定語的語序差異及泰國學(xué)生漢語定語習(xí)得研究[D].杭州:浙江大學(xué),2012.

        [25]張金花.漢泰語對比淺析[J].群文天地月刊,2012(2):98.

        [26]孫漢萍.漢泰語的同異性比較[J].湘潭師范學(xué)院學(xué)報:社會科學(xué)版,1995(2):34-39.

        [27]趙世瑜.泰語詞法分析關(guān)鍵技術(shù)研究[D].昆明:昆明理工大學(xué),2017.

        [28]周國光.漢語配價語法論略[J].南京師范大學(xué)學(xué)報:社科版,1994(4):103-106.

        [29]付劍鋒,劉宗田,付雪峰,等.基于依存分析的事件識別[J].計算機科學(xué),2009,36(11):217-219.

        [30]彭籍沖.泰語新聞事件抽取方法研究[D].昆明:昆明理工大學(xué),2017.

        (責(zé)任編輯:何麗)

        猜你喜歡
        自然語言處理泰語規(guī)則
        撐竿跳規(guī)則的制定
        數(shù)獨的規(guī)則和演變
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        《暹羅館譯語》與現(xiàn)代泰語讀音差異
        TPP反腐敗規(guī)則對我國的啟示
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        面向機器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
        淺析提高泰語閱讀技能之我見
        漢哈機器翻譯中的文字轉(zhuǎn)換技術(shù)研究
        HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
        科技視界(2016年5期)2016-02-22 11:41:39
        内射精品无码中文字幕| av网站免费在线浏览| 无码熟妇人妻av在线网站| 中国女人做爰视频| 亚洲福利视频一区| 美女黄频视频免费国产大全| 五月婷婷开心五月播五月| 日本精品久久久久中文字幕 | 久久久午夜毛片免费| 免费在线观看草逼视频| 无套内谢孕妇毛片免费看| 日本免费一区二区三区| 99久久99久久久精品久久| 后入少妇免费在线观看| 精品欧美一区二区三区久久久| 成人免费毛片aaaaaa片| 狠狠躁天天躁无码中文字幕图| 女同视频网站一区二区| 精品一区二区三区四区国产| 在线观看免费人成视频| 麻豆国产av尤物网站尤物| 久久久精品久久久国产| 人人澡人人妻人人爽人人蜜桃麻豆 | 国产91吞精一区二区三区| 日本一区二区高清视频在线| 国内自拍情侣露脸高清在线| 精品少妇人妻av一区二区| 国产亚洲精品国产福利在线观看| 中文字幕精品久久一区二区三区| 中文字幕亚洲无线码在线一区| 亚洲∧v久久久无码精品| 日本韩国三级aⅴ在线观看| 久久精品熟女亚洲av香蕉| 久久久国产打桩机| 国产2021精品视频免费播放| 亚洲麻豆av一区二区| 老熟妇乱子交视频一区| 人妻少妇被猛烈进入中文字幕| 国产成人一区二区三区高清| 国产精品熟女少妇不卡| 国产丶欧美丶日本不卡视频|