亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多特征融合的中文實(shí)體關(guān)系抽取研究

        2019-07-29 00:41:36孫康康
        無線互聯(lián)科技 2019年9期
        關(guān)鍵詞:注意力機(jī)制

        孫康康

        摘? ?要:詞性等特征在句子中扮演著重要的角色,往往能揭示命名實(shí)體之間的關(guān)系,而當(dāng)前的實(shí)體關(guān)系抽取任務(wù)大多僅基于詞向量進(jìn)行,忽視了詞性等對(duì)實(shí)體關(guān)系抽取任務(wù)有益的特征。因此,文章采用了一種多特征融合的方式進(jìn)行中文實(shí)體關(guān)系抽取模型的訓(xùn)練,在以詞向量作為輸入單元的前提下融合了句子中詞語的詞性、距離實(shí)體對(duì)的位置、實(shí)體標(biāo)注相關(guān)特征,并以雙向長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)合注意力機(jī)制的模型進(jìn)行了中文實(shí)體關(guān)系抽取的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,基于多特征融合的訓(xùn)練方式提升了中文實(shí)體關(guān)系抽取的效果。

        關(guān)鍵詞:實(shí)體關(guān)系抽取;多特征;雙向長(zhǎng)短期記憶網(wǎng)絡(luò);注意力機(jī)制

        實(shí)體關(guān)系抽?。‥ntity Relation Extraction,ERE)的主要任務(wù)是識(shí)別并抽取實(shí)體對(duì)間存在的語義關(guān)系,本文進(jìn)行的實(shí)體關(guān)系抽取工作是為了從文本數(shù)據(jù)中提取實(shí)體間的語義關(guān)系作為知識(shí)表示的一部分。當(dāng)前國(guó)內(nèi)外主流的實(shí)體關(guān)系抽取大多采用機(jī)器學(xué)習(xí)的方法,根據(jù)其對(duì)標(biāo)注語料庫(kù)規(guī)模的不同需求,分為有監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)等方法[1]。弱監(jiān)督方法中常以遠(yuǎn)程監(jiān)督的方式進(jìn)行實(shí)體關(guān)系抽取,是在基于現(xiàn)有知識(shí)庫(kù)中存在領(lǐng)域知識(shí)的前提下進(jìn)行的,而現(xiàn)有知識(shí)庫(kù)并不能完全涵蓋某些領(lǐng)域的實(shí)體關(guān)系。此外,基于無監(jiān)督的實(shí)體關(guān)系抽取技術(shù)目前識(shí)別效率較低,難以投入實(shí)際應(yīng)用。

        為此,本文采用了基于有監(jiān)督學(xué)習(xí)方法的BiLSTM-Attention模型,并以人物關(guān)系抽取為例進(jìn)行實(shí)體關(guān)系抽取的實(shí)驗(yàn),其中,針對(duì)模型注意力不足的問題,提出了一種多特征融合的改進(jìn)措施。此外,在實(shí)驗(yàn)之初,本文定義了5種人物之間的關(guān)系,分別為祖孫、父母、兄弟姐妹、好友和上下級(jí)。

        1? ? 數(shù)據(jù)預(yù)處理

        本文采用了中國(guó)科學(xué)院軟件研究所的劉煥勇[2]及Guan[3]在Github上發(fā)布的人物關(guān)系語料庫(kù),將訓(xùn)練語料的處理主要分為兩部分。

        (1)采用分詞工具,通過哈爾濱工業(yè)大學(xué)語言技術(shù)平臺(tái)(Language Technology Platform,LTP)對(duì)訓(xùn)練語料進(jìn)行分詞處理,為了保證分詞的準(zhǔn)確性,將語料庫(kù)中的實(shí)體添加到分詞工具的字典中,并采用word2vec對(duì)分詞后的語料數(shù)據(jù)進(jìn)行分布式詞向量的訓(xùn)練,訓(xùn)練模型采用Skip-Gram,詞向量的維度為100維。

        (2)采用神經(jīng)語言程序?qū)W(Neuro-Linguistic Programming,NLP)工具(哈工大LTP)對(duì)訓(xùn)練語料進(jìn)行詞性標(biāo)注,獲得語料庫(kù)中各語句的詞性標(biāo)注序列;計(jì)算語料庫(kù)中各詞與實(shí)體對(duì)的相對(duì)位置,生成各語句的位置標(biāo)簽序列;將語料庫(kù)中的實(shí)體進(jìn)行標(biāo)注,獲得各語句的實(shí)體標(biāo)簽序列。分別對(duì)以上序列進(jìn)行Word embedding操作,由于以上序列的相關(guān)特征較少,因此,采用隨機(jī)初始化的方式,序列維度均為10,其中,相對(duì)位置標(biāo)注序列可以分為距離實(shí)體1和實(shí)體2的相對(duì)位置,在此分別對(duì)其進(jìn)行向量隨機(jī)初始化。

        2? ? 多特征融合

        使用詞性標(biāo)注工具對(duì)句子中的詞語進(jìn)行詞性分析,獲得該句子對(duì)應(yīng)的詞性標(biāo)注序列;對(duì)句子中各詞距離實(shí)體對(duì)的相對(duì)位置進(jìn)行標(biāo)注,以及對(duì)實(shí)體的標(biāo)注,獲得該句子的位置標(biāo)注序列和實(shí)體標(biāo)注序列。將以上標(biāo)注序列分別采用隨機(jī)初始化向量的操作得到各序列的向量化表示,然后與句子中各詞的向量表示進(jìn)行拼接,通過融合句子的詞性特征、位置特征及命名實(shí)體特征,增強(qiáng)句子中對(duì)關(guān)系抽取的有益成分,具體做法如下。

        以分詞后的語句“母親 章含之 是 對(duì)洪晃 影響 最大 的 一個(gè)人 ?!睘槔撜Z句中命名實(shí)體為“章含之”和“洪晃”,其中語句中各詞對(duì)應(yīng)的詞性標(biāo)注序列POS為:

        語句中各詞距離實(shí)體1和實(shí)體2的相對(duì)位置標(biāo)注序列RP1和RP2分別為:

        語句中各詞對(duì)應(yīng)的實(shí)體標(biāo)注序列NER為:

        語句各詞對(duì)應(yīng)的分布式向量Wi表示如下:

        最終經(jīng)融合后語句中各詞的向量表示為:

        3? ? 實(shí)驗(yàn)結(jié)果及分析

        本文采用了BiLSTM-Attention模型對(duì)人物關(guān)系進(jìn)行抽取。首先,進(jìn)行參數(shù)調(diào)優(yōu)實(shí)驗(yàn),分別選擇對(duì)模型性能有影響的batch_size、優(yōu)化器、隱藏層節(jié)點(diǎn)數(shù)及學(xué)習(xí)速率進(jìn)行實(shí)驗(yàn)。經(jīng)過參數(shù)調(diào)優(yōu),最終確定的模型參數(shù)為batch_size:32,優(yōu)化器Adam,隱藏層節(jié)點(diǎn)數(shù)200,學(xué)習(xí)速率0.001。

        通過對(duì)參數(shù)的選擇實(shí)驗(yàn),模型最終在測(cè)試集上取得了78.5%的F1值,實(shí)驗(yàn)結(jié)果如表1所示。

        為了驗(yàn)證多特征融合的有效性,本文選擇與2016年Zhou等[4]提出的基準(zhǔn)模型進(jìn)行對(duì)比,對(duì)比結(jié)果如表2所示。該文同樣采用了雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)結(jié)合注意力機(jī)制的模型進(jìn)行實(shí)體關(guān)系抽取,但并未采用任何詞性及實(shí)體標(biāo)注的信息,在采用與該論文相同數(shù)據(jù)集的情況下,本模型的F1值比其高出1.38%。

        4? ? 結(jié)語

        本文選擇了BiLSTM-Attention模型對(duì)人物關(guān)系進(jìn)行抽取,針對(duì)BiLSTM-Attention模型中注意力層不足的問題,提出了多特征融合的改進(jìn)措施,并針對(duì)改進(jìn)措施進(jìn)行了模型對(duì)比分析,驗(yàn)證了多特征融合的有效性。

        [參考文獻(xiàn)]

        [1]胡亞楠,舒佳根,錢龍華,等.基于機(jī)器翻譯的跨語言關(guān)系抽取[J].中文信息學(xué)報(bào),2013(5):191-197.

        [2]LIU H Y.Person relation knowledge graph[EB/OL].(2018-12-15)[2019-05-13].https//github.com/liuhuanyong/person relation knowledge graph.

        [3]GUAN W.Small-Chinese-Corpus[EB/OL].(2017-09-13)[2019-05-13].https//github.com/crownpku/Small-Chinese-Corpus/tree/master/relation_multiple_chi.

        [4]ZHOU P,SHI W,TIAN J,et al.Attention-based bidirectional long short-term memory networks for relation classification[C].Shanghai:Meeting of the Association for Computational Linguistics,2016.

        Abstract:Features such as part of speech play an important role in sentences, and often reveal the relationship between named entities. The current task of extracting entity relationships is mostly based on word vectors, ignoring the characteristics of part-of-speech and other useful tasks for extracting entities. Therefore, this paper adopts a multi-feature fusion method to train Chinese entity relationship extraction model. Under the premise of word vector as input unit, the word part of the sentence, the position of the distance entity pair and the entity labeling related feature are combined. The experiment of Chinese entity relationship extraction is carried out by using the bi-long short-term memory network combined with the attention mechanism model. The experimental results show that the training method based on multi-feature fusion improves the effect of Chinese entity relationship extraction.

        Key words:entity relationship extraction; multi-feature; bi-long short-term memory network; attention mechanism

        猜你喜歡
        注意力機(jī)制
        基于注意力機(jī)制的改進(jìn)CLSM檢索式匹配問答方法
        基于注意力機(jī)制的行人軌跡預(yù)測(cè)生成模型
        基于注意力機(jī)制和BGRU網(wǎng)絡(luò)的文本情感分析方法研究
        基于序列到序列模型的文本到信息框生成的研究
        基于深度學(xué)習(xí)的手分割算法研究
        從餐館評(píng)論中提取方面術(shù)語
        面向短文本的網(wǎng)絡(luò)輿情話題
        基于自注意力與動(dòng)態(tài)路由的文本建模方法
        基于深度學(xué)習(xí)的問題回答技術(shù)研究
        基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
        狠狠躁夜夜躁AV网站中文字幕 | 国产精品一区二区日韩精品 | 在线精品亚洲一区二区动态图 | 欧美做受视频播放| 亚洲AⅤ乱码一区二区三区| 情av一区二区三区在线观看| 国产av国片精品jk制服| 久久久久亚洲av无码专区桃色| 在线亚洲AV不卡一区二区| 女人天堂国产精品资源麻豆| 无码人妻一区二区三区免费看| 国产成人vr精品a视频| 天天中文字幕av天天爽| 一区视频免费观看播放| 伊人精品久久久久中文字幕| 国产免费一区二区三区在线观看| 无码一区二区三区久久精品| 日韩麻豆视频在线观看| 男女高潮免费观看无遮挡| 中文字幕福利视频| 亚洲中文字幕无码中文字| 白丝爆浆18禁一区二区三区| 国产乱人伦av在线麻豆a| 手机看片福利一区二区三区| 国产一级黄色录像| 国产91久久精品成人看网站| 午夜三级a三级三点在线观看| 欧洲-级毛片内射| 熟女系列丰满熟妇av| 在线观看国产视频你懂得| 无码少妇精品一区二区免费动态| 婷婷亚洲国产成人精品性色 | 老色鬼永久精品网站| 国产白浆一区二区三区佳柔| 国产va免费精品观看精品| 久久99国产乱子伦精品免费| av网址不卡免费在线观看| 插上翅膀插上科学的翅膀飞| 亚洲男人的天堂在线播放| 国产在线观看免费一级| 日韩一级黄色片一区二区三区|