亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向中文新聞語料的事件規(guī)范化研究

        2021-09-26 16:25:16謝紅,孫銳
        電腦知識與技術 2021年20期

        謝紅,孫銳

        摘要:本文針對中文文本事件形態(tài)存在的不統(tǒng)一或省略的現(xiàn)象,提出一種基于自舉的事件規(guī)范化方法。在中文新聞語料上的實驗表明了方法的有效性。通過對事件規(guī)范化結果的分析明確了事件分析中的一些新難點,為后續(xù)事件相關任務研究提供了思路。

        關鍵詞:原子事件;事件抽取;事件模板;事件規(guī)范化

        中圖分類號:TP311? ? ? ? 文獻標識碼:A

        文章編號:1009-3044(2021)20-0139-02

        1 引言

        篇章學習任務大多以短語或語句作為單位,在學術界和工業(yè)界均取得較大的成功。從語義層面來看,詞或短語存在較大的歧義,而事件語義表達確切,無需消歧,故受到越來越多的重視,如事件知識圖譜[1]。

        學術界對“事件”沒有統(tǒng)一的定義,但多表示為“謂詞+論元”結構。論元個數(shù)不同,事件的形態(tài)不同。本文關注原子事件,其謂詞論元結構為,分別對應事件主語、謂語和賓語。近年來,這種事件結構已被證明可有效地應用到各種任務[2-3]。

        中文是一種意合的語言,在文本中會大量存在著省略和開放靈活的語法結構。主要表現(xiàn)在:1)原子事件的形式呈現(xiàn)多樣化。如,事件“人,受傷,nil”與事件“nil,受傷,人”語義相同,但語法結構是不同的。直覺地,這種語義相似的事件可采用統(tǒng)一的形式來表示;2)存在一些事件因省略或由于觸發(fā)詞與論元的距離過遠而丟失論元;3)部分事件會以名詞短語的形式出現(xiàn)。如,“四川火災”是一個名詞短語,但實際上對應原子事件“四川,發(fā)生,火災”。

        可以看出,中文原子事件因表達形式靈活,必然面臨較嚴重的稀疏問題,從而給事件語義分析帶來一定的制約。受語音合成和文本規(guī)范化的啟發(fā),本文提出一種自舉(Bootstrapping)的事件規(guī)范化(Event Normalization)方法,在爬取的新聞語料上對事件規(guī)范化進行了統(tǒng)計分析,同時討論了當前事件規(guī)范化面臨的問題。

        2 相關工作

        2.1 事件抽取

        由于學術界沒有公開可用的原子事件標注語料,原子事件的抽取主要有兩種無監(jiān)督的方案:一是基于規(guī)則的方法,另一種是基于關系抽取的方法。

        基于規(guī)則的方法大多利用依存分析結果,例如,根據(jù)“nsubj”、“dobj”和“l(fā)oc”等確定事件觸發(fā)詞和主要論元。Hu等[4]將詞性為“VB”的動詞視為事件觸發(fā)詞,借助依存分析尋找每個動詞的論元。Glavas等[5]為構建事件圖,定義了句法模板并根據(jù)依存關系提取事件論元。

        基于關系抽取的方法利用了實體關系來表達事件論元的語義關聯(lián)。Balasubramanian等[6]將關系三元組中詞干化后的關系動詞作觸發(fā)詞,詞干化后的各實體詞作為事件論元。Qiu等[7]首次在中文開放文本領域實現(xiàn)實體關系的抽取算法,關注關系動詞為核心的三元組。

        2.2 文本規(guī)范化

        文本規(guī)范化是將非規(guī)范詞轉化為規(guī)范詞,進而得到規(guī)范文本的過程。大多數(shù)工作關注詞的規(guī)范化。對英文而言,可通過詞典來判斷詞的規(guī)范性。而對中文而言,由于詞的構成形式的多樣性,規(guī)范化難度更大。一般而言,通過構建非規(guī)范詞典,將規(guī)范化問題轉化為檢索問題來實現(xiàn)。

        本文關注結構化事件的規(guī)范化問題,即如何解決中文原子事件在表現(xiàn)形態(tài)上的差異,以緩解原子事件的稀疏性問題,以后續(xù)事件關系分析和統(tǒng)計提供良好的數(shù)據(jù)保障。

        3 事件規(guī)范化

        通過統(tǒng)計觀察發(fā)現(xiàn),原子事件的分布符合一種假設:大規(guī)模語料中的事件如果有更寬的分布和更高的出現(xiàn)頻率,則可泛化成一個標準模板。例如,兩個候選事件“人,死亡,nil”和“nil,死亡,人”,假設前者在20個文檔中出現(xiàn)了123次,后者在18個文檔中出現(xiàn)了96次。則可以將前者作為標準模板,其它與之語義相似的事件均應規(guī)范成該模板。由此可見,事件模板的生成基于事件信息,而事件的規(guī)范化則需要標準事件模板的指導。

        本文采用自舉的事件規(guī)范化方法,具體流程如圖1所示,首先由初始化候選事件集合得到候選模板,對所有候選事件模板進行置信度評估,由此產生標準模板并候選事件進行修正或規(guī)范化,修正后的事件重新加入規(guī)范事件集合。此過程反復迭代,直至再無標準模板產生為止(所有候選模板置信度低于某一閾值)。

        3.1 候選模板抽取

        本文首先沿用基于規(guī)則的方法[7]來抽取候選事件,利用依存分析結果中的“nsubj”和“dobj”兩種關系。給定語句“民政局公布相關數(shù)據(jù)”,可得到兩個依存關系:“nsubj (公布,民政局)”和“dobj (公布,數(shù)據(jù))”,可合并為事件“民政局,公布,數(shù)據(jù)”。

        事件模板應具有泛化能力,故選擇了同義詞詞林擴展版為每個詞語提供語義標簽,如“四川”可賦予地名標簽“Di02B”,“地震”可賦予語義類別“Da09B”。由此,將候選事件按語義標簽類別進行統(tǒng)計,即可得到候選事件模板。

        3.2 置信度評估

        每個候選模板[p]采用下式進行置信度評估:

        [Score(p)=Efreq(p)×Dcover(p)=|i:ei∈p|E×|j:p∈dj|D]? ? ? ? ?(1)

        其中,[Efreq(p)]表示事件在語料中的出現(xiàn)概率,[Dcover(p)]則代表事件出現(xiàn)的文檔概率,[|E|]和[|D|]分別代表事件集合和文檔集合大小。事件概率度量了模板的事件覆蓋度,而文檔概率則度量了模板的文檔覆蓋度,得分最高的即為標準模板。

        3.3 事件規(guī)范化

        在得到標準模板后,可直接對事件集合中的不規(guī)范事件進行修正以達到規(guī)范化的目的。若事件對應多個標準模板,可根據(jù)事件與模板間的語義距離以確定標準模板的選擇。

        日韩在线视频不卡一区二区三区 | 久久精品久久精品中文字幕| 尤物蜜芽福利国产污在线观看 | 少妇bbwbbw高潮| 国产精品久久av色婷婷网站| 人人妻人人澡人人爽人人精品av | 首页动漫亚洲欧美日韩| 国产精品,在线点播影院| 一区二区三区av在线| 丰满少妇人妻无码专区| 婷婷开心深爱五月天播播| 国产成人综合色在线观看网站| 99热这里有免费国产精品| 精品一区二区亚洲一二三区| 久久精品亚洲熟女av蜜謦| 欧美xxxx色视频在线观看| 国产女人精品视频国产灰线| 日本免费a一区二区三区| 成av人大片免费看的网站| 少妇熟女天堂网av| 国产成人av一区二区三区无码| 久久久2019精品视频中文字幕| 亚洲综合中文一区二区| 精品卡一卡二乱码新区| 7777奇米四色成人眼影| 亚洲一区二区三区精品网| 成人偷拍自拍在线视频| 国产极品裸体av在线激情网| 国产乱子轮xxx农村| 韩国19禁主播深夜福利视频| 国产精品一区二区日韩精品| 一道本久久综合久久鬼色| 柠檬福利第一导航在线| 97精品国产91久久久久久久| 亚洲不卡av二区三区四区| 久久人人爽爽爽人久久久| 伊人久久综合影院首页| 黑人一区二区三区高清视频| 亚洲国产精品成人久久久| 无码久久精品国产亚洲av影片 | 欧美怡春院一区二区三区|