亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于句法語義特征的中文實體關(guān)系抽取

        2017-03-03 01:50:47周舜哲
        北方文學(xué)·下旬 2016年10期
        關(guān)鍵詞:謂詞句法語料

        周舜哲

        摘要:實體關(guān)系特征的選擇是實體關(guān)系抽取的核心問題。在以前的研究主要要是以實體原始特征和詞法特征來體現(xiàn)實體關(guān)系,在一定程度上來說很難再將抽取效果進一步提高。本文在傳統(tǒng)的研究基礎(chǔ)之上,闡述一種以語義和句法為主要特征進行抽取的新方法,并且融入了謂詞、句法和語義等一些角色,將SVM作為輔助工具,將真實的新聞消息進行試驗。

        關(guān)鍵詞:句法語義特征;關(guān)系抽取

        相對而言,由于中文語言結(jié)構(gòu)的獨特性和語義的復(fù)雜性,中文實體關(guān)系抽取研究整體上與國外的研究還存在一定差距,常用的基于淺層語法分析獲取特征的方法已經(jīng)達到瓶頸。本文也將采用 SVM模型訓(xùn)練語料,但于以往不同的是,該方法擴展了實體關(guān)系特征的選擇范圍,除了傳統(tǒng)的詞法特征、實體原始特征外,又選擇了句法特征、語義特征等作為實體關(guān)系特征,主要包 括語義 角 色標(biāo)注、依存 句法關(guān)系、核心謂詞特征等,并依據(jù)中文的語法特點對這些特征進行有機整合,得到二元實體對之間的豐富關(guān)系特征,最后交由SVM 進行訓(xùn)練和測試。

        一、本文的主要研究方法

        (一)SVM的實體關(guān)系與句法語義特征抽取方法過程

        研究方法依據(jù)LTP-Cloud對原始語料進行簡單的初步處理,利用LTP-Cloud對原始語料的詞、句法作為分析結(jié)果的基礎(chǔ),之后生成二元實體對,將實體對的特征數(shù)據(jù)采集起來,轉(zhuǎn)化成訓(xùn)練文本,然后再將訓(xùn)練文本交給SVM進行強化訓(xùn)練。這不僅是本文的創(chuàng)新內(nèi)容還是最主要的核心部分,因為LTP-Cloud主要以單個句子為研究對象,這就需要我們獲取命名實體信息,將實體句子相互結(jié)合,形成實體對,假如說只有一個實體或者是沒有實體,那就說明不存在真正的實體關(guān)系,就需要我們將其去掉。

        (二)實體關(guān)系的基本特征

        常規(guī)的實體關(guān)系特征主要從詞法分析結(jié)果來獲取,以往的研究已經(jīng)表明了這些特征的有效性。面向句子中所有實體組成的二元實體對,本文選擇的基本實體關(guān)系主要特征如下:

        1.實體種類。目前LTP-Cloud能夠識別的實體種類有人名、地名、組織機構(gòu)名。

        2.實體長度。根據(jù)命名實體結(jié)果的標(biāo)識信息中,獲取多詞實體的邊界,并根據(jù)其首尾詞的位置來計算實體長度。

        3.實體內(nèi)容。這里采用詞袋機制將實體內(nèi)容由字符轉(zhuǎn)換為數(shù)字。

        4.實體中各詞的詞性標(biāo)注。

        5.實體的上下文環(huán)境。包括實體前后兩個詞的內(nèi)容以及詞性標(biāo)注信息。

        (三)句法語義的主要特征

        本方法對處理結(jié)果再進一步的深入研究,可以得到更多的句法語義特征。

        1.句法依存關(guān)系。將獲取實體對中每一個實體在原句中所屬的句法依存關(guān)系值。

        2.實體與核心謂詞的距離。根據(jù)實體首詞在句中的位置和核心謂詞的位置,計算出每一個實體與核心謂詞的距離。

        3.語義角色標(biāo)注。LTP-Cloud的初步結(jié)果中包含了針對所有謂詞的語義角色標(biāo)注結(jié)果,但是只有基于核心謂詞的語義角色標(biāo)注的覆蓋度是最廣的,所以這里也僅選擇基于核心謂詞的語義角色標(biāo)注結(jié)果作為這一特征來源,獲取實體對中每一個實體所屬的語義角色成分,將其作為實體關(guān)系的一種特征。

        每組實體對的實際特征個數(shù)會隨著實體長度的不同而不同;這些特征之間的相對位置并不是任意的,需要根據(jù)一定的規(guī)律合理安排。

        二、試驗方法與結(jié)果分析

        (一)實驗結(jié)果評價標(biāo)準(zhǔn)

        預(yù)設(shè)了4種實體關(guān)系種類:人名實體與組織機構(gòu)實體之間的雇傭關(guān)系、組織機構(gòu)實體與地名實體之間的位于關(guān)系、屬于同一種實體類型的 同 類 關(guān) 系和 無 關(guān) 系。由于本文亦將實 體關(guān) 系抽取過程看作是分類的過程,所以這里的評價方式也采用常規(guī)的準(zhǔn)確率、召回率和F1值。

        因為分類標(biāo)注問題不同于信息檢索問題,所以應(yīng)計算所有實體關(guān)系種類的準(zhǔn)確率和召回率的平均值,以此作為整體抽取結(jié)果的準(zhǔn)確率和召回率,并由此得出整體F1值。

        (二)實驗設(shè)計思路

        本方法用1998年1月份的《人民日報》所有版面內(nèi)容作為語料,共含有4萬多個中文句子。由于LTP-Cloud需要以句子為基本處理對象,所以還需采用基于規(guī)則的方法將語料內(nèi)容進行分句。將上述語料通過LTP-Cloud處理后,可得到含有約8.5萬個唯一實體的處理結(jié)果,由此可得到約3.6億個二元實體對,將其中的80%作為訓(xùn)練語料,20% 作為測試語料,進一步分析出實體對中句法語義特征數(shù)據(jù),并人工添加實體關(guān)系分類標(biāo)注,最終形成訓(xùn)練語料。采用libSVM作為輔助工具,在SVM的訓(xùn)練過程中,選擇RBF作為核函數(shù),采用交叉驗證法,得到最優(yōu)參數(shù)c=2.0, g=0.5, CV rate=73.1905。實驗程序采用Python語言編寫實現(xiàn)。

        (三)實驗結(jié)果分析

        為了與傳統(tǒng)研究方法進行比較,對比組選取傳統(tǒng)的基本特征,實驗組在原有傳統(tǒng)基本特征的基礎(chǔ)之上加入句法語義特征。

        通過以上的統(tǒng)計結(jié)果研究顯示,實驗組的抽取效果很明顯的優(yōu)越于對照組。同時位于關(guān)系、同類關(guān)系和無關(guān)系的效果更加明顯一些,所以說本研究方法是有一定的實際意義的。

        但是其中也存在一個明顯的問題,從局部來看,部分實體關(guān)系抽取的效果相對較差,例如,人名實體與組織機構(gòu)實體之間的雇傭關(guān)系。在實體對中,并不是只要存在一個人名實體與一個組織機構(gòu)實體,就應(yīng)認(rèn)定他們之間存在雇傭關(guān)系,只是在句中的位置、具體的詞不同,所以這就容易導(dǎo)致分類錯誤。

        三、結(jié)束語

        本文提出了一種基于句法語義特征的實體關(guān)系抽取方法,與以往的實體關(guān)系抽取方法相比,本文新增了句法分析結(jié)果和語義分析結(jié)果作為為實體關(guān)系的特征,實驗結(jié)果表明此方法效果明顯。另外,本方法以句子為處理單位,缺少篇章處理的視野,未來將在上述方面繼續(xù)做深入研究。

        參考文獻:

        [1]徐健,張智雄,吳振新.實體關(guān)系抽取的技術(shù)方法綜述[J].現(xiàn)代圖書情報技術(shù),2014,24(08):18-23.

        猜你喜歡
        謂詞句法語料
        句法與句意(外一篇)
        中華詩詞(2021年3期)2021-12-31 08:07:22
        述謂結(jié)構(gòu)與英語句法配置
        被遮蔽的邏輯謂詞
        ——論胡好對邏輯謂詞的誤讀
        黨項語謂詞前綴的分裂式
        西夏研究(2020年2期)2020-06-01 05:19:12
        句法二題
        中華詩詞(2018年3期)2018-08-01 06:40:40
        詩詞聯(lián)句句法梳理
        中華詩詞(2018年11期)2018-03-26 06:41:32
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        也談“語言是存在的家”——從語言的主詞與謂詞看存在的殊相與共相
        華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        久久一区二区av毛片国产| 亚洲国产成人久久一区www妖精| 青青青伊人色综合久久亚洲综合| 国产99久久久国产精品免费| 男女真人后进式猛烈视频网站| 亚洲日产一线二线三线精华液| 馬与人黃色毛片一部| 亚洲精品午夜精品国产| 日本一区二区三区丰满熟女| 成人免费无码大片a毛片| 国产成人vr精品a视频| 久久青草亚洲AV无码麻豆| 国产午夜精品久久精品| 亚洲av一二三区成人影片| 国产精品成人一区二区三区| 高清国产亚洲va精品| 熟妇人妻精品一区二区视频| 丰满的人妻hd高清日本| 女人被做到高潮免费视频 | 日本高清中文字幕二区在线| 国产精品成人一区二区不卡| 久久国产精品国语对白| 日日摸夜夜添夜夜添高潮喷水| 内射少妇36p九色| 在线成人tv天堂中文字幕| 国产一区二区黑丝美胸| 正在播放强揉爆乳女教师| 一本色道久久99一综合| 亚洲精品精品日本日本| 国产人成精品免费久久久| 无码日韩精品一区二区三区免费 | 免费无码av一区二区| 亚洲美腿丝袜综合一区| 国产啪啪视频在线观看| 亚洲男女内射在线播放| a级毛片内射免费视频| 精品国产91久久久久久久a| 亚洲av综合色一区二区| 凹凸在线无码免费视频| 欧洲亚洲视频免费| 久久久精品国产三级精品|