亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多特征注意力卷積神經(jīng)網(wǎng)絡(luò)的旅游領(lǐng)域?qū)嶓w關(guān)系抽取

        2022-03-26 06:53:38殷纖慧古麗拉阿東別克
        關(guān)鍵詞:語(yǔ)料注意力實(shí)體

        殷纖慧,古麗拉·阿東別克

        (1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室,新疆 烏魯木齊 830046;3.國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究少數(shù)民族語(yǔ)言中心哈薩克和柯?tīng)柨俗握Z(yǔ)文基地,新疆 烏魯木齊 830046)

        0 引言

        關(guān)系抽取[1]旨在識(shí)別文本中實(shí)體詞之間的語(yǔ)義關(guān)系.它是信息抽取中的一個(gè)重要組成部分.新疆旅游領(lǐng)域?qū)嶓w關(guān)系抽取的研究為構(gòu)建旅游領(lǐng)域知識(shí)圖譜奠定了基礎(chǔ).目前研究關(guān)系抽取的方法包括傳統(tǒng)方法和深度學(xué)習(xí)的方法.傳統(tǒng)的方法包括基于特征的方法和基于核函數(shù)的方法[2].傳統(tǒng)方法手工依賴性較高,導(dǎo)致額外的傳播錯(cuò)誤且增加計(jì)算成本.近年來(lái),循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等方法[3-4]被用于實(shí)體關(guān)系抽取任務(wù)中,可自動(dòng)學(xué)習(xí)簡(jiǎn)單的特征,能夠發(fā)現(xiàn)更多隱含的特征.但仍然存在以下問(wèn)題:(1)文本特征提取不充分.且對(duì)于新疆旅游領(lǐng)域而言,語(yǔ)料中包含大量復(fù)雜的人名地名,僅考慮某個(gè)單個(gè)特征,不足以充分捕捉文本信息.(2)核心詞表現(xiàn)弱.不同詞語(yǔ)對(duì)于整個(gè)句子的語(yǔ)義信息影響大小不同,對(duì)所有詞一視同仁,影響關(guān)系預(yù)測(cè)的結(jié)果.(3)大多用于普通領(lǐng)域,缺乏新疆旅游領(lǐng)域相關(guān)研究.缺少領(lǐng)域語(yǔ)料庫(kù),領(lǐng)域針對(duì)性較小.

        近年來(lái),大量傳統(tǒng)方法被用于解決實(shí)體關(guān)系抽取問(wèn)題.主要為基于特征的方法和基于核函數(shù)的方法.

        (1) 基于特征的方法:該方法利用通過(guò)特征提取構(gòu)造特征向量.常用的特征包括詞匯特征、句法特征和語(yǔ)義特征.文獻(xiàn)[5]使用了依存句法分析、詞性標(biāo)注兩個(gè)特征,以支持向量機(jī)作為分類器.但沒(méi)有考慮到位置特征及實(shí)體標(biāo)簽,特征提取不充分.

        (2) 基于核函數(shù)的方法:該方法利用解析樹(shù)、核函數(shù)等豐富句子的句法信息.文獻(xiàn)[6]將語(yǔ)義相似度嵌入樹(shù)核中實(shí)現(xiàn)關(guān)系抽取.這些方法增強(qiáng)了模型的泛化性,但特征提取耗時(shí)耗力,擴(kuò)展性不強(qiáng).

        目前,解決實(shí)體關(guān)系抽取問(wèn)題所用的兩大主流的深度學(xué)習(xí)方法為卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),它們是解決實(shí)體關(guān)系抽取問(wèn)題的兩大主流的深度學(xué)習(xí)方法.

        Zhang等[7]提出BiLSTM來(lái)模擬一個(gè)完整的、連續(xù)的單詞信息的句子.但LSTM無(wú)法進(jìn)行平行化輸入,局部信息表示不充分.Zeng等[8]采用CNN實(shí)現(xiàn)關(guān)系抽取,且首次引入位置標(biāo)簽.Zhou等[9]2016年將注意力機(jī)制與雙向LSTM相融合,使用位置特征作為輸入特征.Wang等[10]提出將注意力機(jī)制引入到CNN中.這些方法的提出驗(yàn)證了注意力機(jī)制和CNN模型在解決實(shí)體關(guān)系抽取任務(wù)中的有效性.

        因此本文將注意力機(jī)制與卷積神經(jīng)網(wǎng)絡(luò)相融合,提高核心詞的影響力.并使用多特征融合的方法解決特征提取不充分的問(wèn)題.

        本文提出了一種基于多特征注意力CNN的實(shí)體關(guān)系抽取方法.其主要優(yōu)點(diǎn):(1)引入多個(gè)特征進(jìn)行特征表示,如位置、詞性及實(shí)體標(biāo)簽,充分提取特征;(2)將句子級(jí)的注意力機(jī)制與CNN相結(jié)合,提高核心詞的權(quán)重;(3)面向新疆旅游領(lǐng)域,結(jié)合歸納15種實(shí)體關(guān)系.設(shè)計(jì)語(yǔ)料標(biāo)注系統(tǒng),建立小型語(yǔ)料關(guān)系庫(kù);(4)設(shè)計(jì)對(duì)比實(shí)驗(yàn),驗(yàn)證本文模型優(yōu)勢(shì).

        1 旅游領(lǐng)域?qū)嶓w關(guān)系抽取方法

        1.1 CNN的基本模型

        本文模型由特征層、嵌入層、卷積層、池化層和全連接層組成,如圖1所示.

        圖1 實(shí)體關(guān)系抽取模型

        1.1.1 特征層

        本文特征層用多個(gè)離散特征進(jìn)行特征表示.

        (1) 位置標(biāo)簽:文本中每個(gè)詞距離實(shí)體e1和實(shí)體e2的距離.以圖2中句子為例,“美麗”距離實(shí)體詞“新疆”“天池”的距離分別為3和-2.

        圖2 表示位置關(guān)系的例子

        (2) 詞性特征:詞性為基本語(yǔ)法屬性,詞的詞性蘊(yùn)含著重要信息.本文采用基于統(tǒng)計(jì)模型的標(biāo)注方法.

        (3) 實(shí)體類型:旅游領(lǐng)域涉及大量的地名、景點(diǎn)名等,且較為復(fù)雜,例如:“霍爾果斯口岸”“江布拉克”等.本文采用命名實(shí)體的標(biāo)注方法,即BMEO標(biāo)注.

        1.1.2 嵌入層

        (1)

        (2)

        1.1.3 卷積層

        卷積層對(duì)輸入文本進(jìn)行卷積操作,以提取句子的局部特征[11].w1,w2,…,wm是所輸入句子的特征向量序列,其中wi∈Rd第i個(gè)詞所包含所有特征向量.假設(shè)有一個(gè)權(quán)重向量參數(shù)化的濾波器,權(quán)重向量由Wconv∈Rcd表示,其中c表示濾波器的長(zhǎng)度,因而輸出序列為

        hi=f(Wconv·wi:i+c-1+b).

        (3)

        其中i=1,2,…,m-c+1,操作“·”代表點(diǎn)乘,b是偏倚項(xiàng),f是線性整流函數(shù)(ReLU).

        1.1.4 池化層

        本文使用最大池化層將卷積層中每個(gè)濾波器的輸出轉(zhuǎn)化為一個(gè)大小固定的向量[12],卷積層的輸出長(zhǎng)度(m-c+1),依賴于句子中詞m的個(gè)數(shù).

        z=max[hi].

        (4)

        通過(guò)池化層操作得到句子的全局特征,保留句子中最有用的全局特征.

        1.1.5 全連接層

        本文使用池化層的輸出來(lái)預(yù)測(cè)實(shí)體關(guān)系的類型[13],使用權(quán)重矩陣Wfconn∈Ro×le將z轉(zhuǎn)化為分?jǐn)?shù)

        s=Wfconnz.

        (5)

        其中zi∈Rle表示池化層的輸出,s表示得分.使用softmax函數(shù)將s轉(zhuǎn)化為關(guān)系概率

        (6)

        其中且s=[s1,…,so],o表示為待分類的關(guān)系總數(shù).當(dāng)已知分類標(biāo)簽為y時(shí),損失函數(shù)Lsoftmax定義為

        Lsoftmax=-∑ylogp.

        (7)

        其中:p表示關(guān)系概率;y表示one-hot向量.

        1.2 注意力機(jī)制

        本文發(fā)現(xiàn)句子中每個(gè)詞語(yǔ)對(duì)于整個(gè)句子的語(yǔ)義信息影響不同,一部分詞影響較小,而另一部分詞則能決定整個(gè)句子的語(yǔ)義信息.因此本文采用注意力機(jī)制,如圖2上部分所示.計(jì)算注意力公式為:

        (8)

        (9)

        (10)

        其中:函數(shù)βi表示當(dāng)前詞與設(shè)定關(guān)系的匹配程度;E={e1,e2};ai,1表示實(shí)體1的權(quán)重;ai,2表示實(shí)體2的權(quán)重;bα為偏倚項(xiàng);權(quán)重為ai.

        1.3 模型訓(xùn)練

        本文采用L2正則避免過(guò)擬合問(wèn)題,使用目標(biāo)函數(shù)Lsoftmax與L2合并,對(duì)損失函數(shù)權(quán)重進(jìn)行正則化.

        (11)

        其中:λ表示正則化參數(shù),‖‖F(xiàn)表示Frobenius范式.需要優(yōu)化的參數(shù)為Wemb,Wconv,Wfconn,b,bα.使用Kingma和Ba在2015年提出的Adam算法作為優(yōu)化器.

        2 實(shí)驗(yàn)部分

        為評(píng)估本文模型在新疆旅游領(lǐng)域進(jìn)行實(shí)體關(guān)系抽取研究的有效性,在建立的新疆旅游領(lǐng)域小型語(yǔ)料關(guān)系庫(kù)中進(jìn)行實(shí)驗(yàn).

        2.1 數(shù)據(jù)集

        本文實(shí)驗(yàn)從去哪兒網(wǎng)、新疆旅游官網(wǎng)等旅游型網(wǎng)站中爬取有關(guān)新疆旅游領(lǐng)域的數(shù)據(jù),通過(guò)對(duì)語(yǔ)料的預(yù)處理操作,最終獲得標(biāo)注數(shù)據(jù)5 028條.訓(xùn)練數(shù)據(jù)3 028條,其余2 000條為測(cè)試數(shù)據(jù).

        (1) 定義實(shí)體對(duì):總結(jié)定義了15種旅游領(lǐng)域?qū)嶓w關(guān)系對(duì),其中“民族-美食”、“民族-習(xí)俗”等實(shí)體對(duì)均為新疆文化特色.如表1所示.

        表1 實(shí)體關(guān)系對(duì)

        (2) 開(kāi)發(fā)語(yǔ)料標(biāo)注系統(tǒng):設(shè)計(jì)并開(kāi)發(fā)語(yǔ)料標(biāo)注系統(tǒng),進(jìn)行半自動(dòng)化的語(yǔ)料標(biāo)注,如圖3所示.

        圖3 語(yǔ)料標(biāo)注系統(tǒng)

        (3)參數(shù)設(shè)置:詞向量為300,位置向量為20,詞性向量為17,實(shí)體標(biāo)簽向量為20,卷積窗口大小為[3,4],卷積核數(shù)目為100,L2正則化參數(shù)為0.000 1.

        2.2 實(shí)驗(yàn)結(jié)果

        2.2.1 多特征的有效性驗(yàn)證

        本文共使用了多個(gè)特征進(jìn)行特征表示,為了研究每個(gè)特征對(duì)本文模型的貢獻(xiàn),依次加入不同的特征對(duì)模型的性能進(jìn)行比較,結(jié)果如表2所示.

        表2 特征對(duì)于訓(xùn)練模型的影響效果 %

        表2中,WV為使用詞訓(xùn)練模型訓(xùn)練好的旅游領(lǐng)域詞向量.PF(位置特征)、POS(詞性特征)、NER(實(shí)體標(biāo)簽),在WV的基礎(chǔ)上添加其他特征.其中位置特征最有效,F(xiàn)1值提高了4.03%.詞性影響不明顯.實(shí)體類型考慮了領(lǐng)域復(fù)雜名詞等,使F1值提高了1.95%.

        2.2.2 注意力機(jī)制的有效性驗(yàn)證

        為了驗(yàn)證注意力機(jī)制對(duì)關(guān)系抽取模型的性能影響,本文模型與未加注意力機(jī)制的CNN做了對(duì)比試驗(yàn)(見(jiàn)圖4).

        圖4 模型驗(yàn)證

        本文方法相較于CNN效果更佳,迭代次數(shù)在5~15次內(nèi)有大幅度提升,迭代次數(shù)大于20趨于穩(wěn)定.最終ATT-CNN的F1值比CNN高3.19%.驗(yàn)證了引入注意力機(jī)制能夠提升實(shí)驗(yàn)F1值.

        2.2.3 與同類實(shí)驗(yàn)對(duì)比

        為了比較本文提出的關(guān)系抽取模型的性能,與目前關(guān)系抽取模型進(jìn)行了對(duì)比實(shí)驗(yàn).

        本文實(shí)驗(yàn)與表3中的實(shí)驗(yàn)進(jìn)行了對(duì)比,本組實(shí)驗(yàn)中分別選了SVM、CNN、ATT-CNNN、ATT-BiLSTM 等模型做了對(duì)比,不同的模型所選的特征不同,實(shí)驗(yàn)結(jié)果表明:本文提出的多特征融合的ATT-CNN模型,在實(shí)體關(guān)系抽取任務(wù)中F1值高于其他方法.

        表3 同類實(shí)驗(yàn)對(duì)比

        3 結(jié)語(yǔ)

        本文采用了ATT-CNN模型,并使用了位置、詞性、實(shí)體類型3個(gè)特征進(jìn)行特征表示.針對(duì)新疆旅游領(lǐng)域進(jìn)行實(shí)體關(guān)系抽取研究.此外,建立關(guān)于新疆旅游領(lǐng)域的小型語(yǔ)料關(guān)系庫(kù),并總結(jié)使用15種關(guān)系對(duì).通過(guò)實(shí)驗(yàn)分析驗(yàn)證了本文模型的有效性.

        未來(lái)的工作主要為:(1)擴(kuò)展語(yǔ)料庫(kù),研究其他特征對(duì)模型的影響.(2)本文通過(guò)預(yù)先定義的關(guān)系對(duì)來(lái)實(shí)現(xiàn)關(guān)系抽取任務(wù),今后研究如何將本文方法引入到開(kāi)發(fā)領(lǐng)域,并且自動(dòng)發(fā)現(xiàn)實(shí)體關(guān)系對(duì).

        猜你喜歡
        語(yǔ)料注意力實(shí)體
        讓注意力“飛”回來(lái)
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        A Beautiful Way Of Looking At Things
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語(yǔ)料
        日本免费a一区二区三区 | 久久一日本道色综合久久大香| 日本一本二本三本道久久久| 日韩精品熟女中文字幕| 特级a欧美做爰片第一次| 亚洲伊人久久大香线蕉综合图片| 国产一区二区三区四区色| 亚洲女同恋av中文一区二区| 久久久久久久波多野结衣高潮| 久久99精品久久久久久久清纯| 中文字幕在线一区乱码| 日本一二三区免费在线| 亚洲热线99精品视频| 另类免费视频在线视频二区 | 宅男噜噜噜| 玩弄极品少妇被弄到高潮| 国产精品一区二区三区免费视频| 人妻少妇精品无码专区动漫| 99福利网| 久久伊人久久伊人久久| 国产免费又色又爽粗视频| 末发育娇小性色xxxxx视频| 亚洲公开免费在线视频| 熟女免费观看一区二区| 亚洲av色香蕉一区二区三区老师| 中国亚洲女人69内射少妇| 亚洲色图在线视频免费观看| 亚洲色图专区在线视频| 中文字幕乱偷无码av先锋蜜桃 | 人妻无码∧V一区二区| 亚洲日本一区二区在线| 亚洲av成人永久网站一区| 国产精品久免费的黄网站| 亚洲av中文无码字幕色三| 任你躁国产自任一区二区三区| 久久国产女同一区二区| 美女露出粉嫩小奶头在视频18禁| 理论片午午伦夜理片影院| 色哟哟av网站在线观看| 成人免费av色资源日日| 亚洲精品一区国产欧美|