亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的化妝品輿情事件實(shí)體關(guān)系抽取技術(shù)研究

        2023-12-29 00:00:00吳迪,劉月恒,孟宏,邱顯榮,張青川
        電腦知識與技術(shù) 2023年33期

        摘要:互聯(lián)網(wǎng)的快速發(fā)展,使得輿情信息會(huì)在短時(shí)間內(nèi)大范圍傳播。通過構(gòu)建化妝品相關(guān)的知識圖譜能夠快速有效地發(fā)現(xiàn)輿情的焦點(diǎn)內(nèi)容,有助于相關(guān)部門更好地掌握輿情導(dǎo)向,并且很好地支持后期的輿情分析。關(guān)系抽取和命名實(shí)體識別是構(gòu)建知識圖譜的關(guān)鍵技術(shù)。針對化妝品輿情存在的多實(shí)體關(guān)系問題,文章在BERT預(yù)訓(xùn)練模型的基礎(chǔ)上構(gòu)建了BERT-BiLSTM-CRF化妝品輿情實(shí)體關(guān)系抽取模型。在化妝品輿情數(shù)據(jù)集上進(jìn)行了對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:基于BERT-BiLSTM-CRF的化妝品輿情實(shí)體關(guān)系抽取模型比常用的幾種神經(jīng)網(wǎng)絡(luò)模型高出2.68%~4.83%,驗(yàn)證了模型的合理性和有效性。

        關(guān)鍵詞:化妝品輿情;BERT;關(guān)系抽取

        中圖分類號:TP391" " " " 文獻(xiàn)標(biāo)識碼:A

        文章編號:1009-3044(2022)33-0025-03

        1 概述

        隨著社交平臺的快速發(fā)展,網(wǎng)民可以隨時(shí)隨地通過自己的社交軟件參與輿情事件的討論、發(fā)表觀點(diǎn)、表達(dá)態(tài)度[1]。近年來,化妝品輿情的體量不斷增加,在最近的統(tǒng)計(jì)信息中,化妝品負(fù)面輿情整體占比呈上升趨勢??焖侔盐蛰浨樾畔⒌慕裹c(diǎn)內(nèi)容有助于對輿情事件做出及時(shí)處理,正確引導(dǎo)公眾的情緒,從而避免造成更嚴(yán)重的后果。然而在互聯(lián)網(wǎng)平臺存在大量的非結(jié)構(gòu)化、具有歧義的文本數(shù)據(jù)。因此如何快速、精準(zhǔn)且有效地對海量數(shù)據(jù)進(jìn)行分析處理并將其轉(zhuǎn)換為可以直接查詢的結(jié)構(gòu)化信息是至關(guān)重要的。

        化妝品輿情知識圖譜是以化妝品行業(yè)為基礎(chǔ),挖掘化妝品輿情事件之間的內(nèi)在聯(lián)系,在化妝品安全、化妝品輿情分析等方面都發(fā)揮著重要的作用。實(shí)體關(guān)系抽取是構(gòu)建化妝品輿情知識圖譜的重要基礎(chǔ)工作之一,實(shí)體識別是指從文本中提取已命名的實(shí)體,并將其劃分為指定的類別。關(guān)系提取是為了識別實(shí)體之間的一些語義關(guān)系。

        在之前的研究中大多采用神經(jīng)網(wǎng)絡(luò)模型來抽取實(shí)體和關(guān)系,Li[1]提出了一個(gè)增量聯(lián)合框架,使用結(jié)構(gòu)化感知器提取實(shí)體和關(guān)系。Bai等人[2]提出了通過詞嵌入的方式提取局部語義特征,設(shè)計(jì)了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的片段注意機(jī)制來提取實(shí)體關(guān)系。與CNN模型相比,RNN能更好地學(xué)習(xí)語句中上下文的語義信息。Socher等人[3]首次將矩陣-遞歸神經(jīng)網(wǎng)絡(luò)模型(MV-RNN)應(yīng)用于自然語言處理,有效地解決了單詞向量模型無法捕捉長短語或句子的組成意義的問題。長短期記憶(LSTM)網(wǎng)絡(luò)模型[4]與RNN模型具有相同的總體框架。但是LSTM允許每個(gè)神經(jīng)單元忘記或保留信息,在一定程度上解決了RNN存在的爆炸梯度問題。Zhang等[5]提出了一種基于LSTM序列的位置感知注意機(jī)制,該機(jī)制與一種實(shí)體位置感知注意相結(jié)合,以實(shí)現(xiàn)更好的關(guān)系提取性能。隨著預(yù)訓(xùn)練模型的不斷發(fā)展,BERT預(yù)訓(xùn)練語言模型在各種自然語言處理任務(wù)上都取得了表較好的效果。Gao等[6]提出了一種基于BERT的醫(yī)學(xué)關(guān)系提取模型,該模型將從預(yù)先訓(xùn)練的語言模型中獲得的整個(gè)句子信息與兩個(gè)醫(yī)療實(shí)體的對應(yīng)信息相結(jié)合,完成關(guān)系提取任務(wù)。

        本文在分析現(xiàn)有實(shí)體關(guān)系抽取方法的優(yōu)劣的基礎(chǔ)上,針對化妝品輿情方面的語料,構(gòu)建了基于BERT-BiLSTM_CRF的實(shí)體關(guān)系抽取模型,能夠很好地抽取實(shí)體和關(guān)系信息。

        2 基于BERT-BiLSTM-CRF的化妝品輿情實(shí)體關(guān)系抽取模型

        本文構(gòu)建的是實(shí)體關(guān)系抽取模型包括是BERT層、BiLSTM層和CRF層三部分,模型結(jié)構(gòu)如圖1所示。

        2.1 BERT層

        基于已有的Word2Vec、GPT等語言模型,2018年Google團(tuán)隊(duì)提出BERT[7]預(yù)訓(xùn)練語言模型,該模型可以學(xué)習(xí)輸入序列的特征表示,然后再把學(xué)習(xí)的特征表示應(yīng)用到不同的下游任務(wù)中任務(wù)。BERT可以通過無監(jiān)督的方式使用大量未標(biāo)記的文本進(jìn)行訓(xùn)練。通過構(gòu)建標(biāo)記語言模型,BERT可以隨機(jī)覆蓋或替換句子中的任何單詞,使模型能夠預(yù)測被上下文隨機(jī)覆蓋的部分,得到該單詞的分布式上下文表示。BERT模型中Transformer采用自注意力機(jī)制和全連接層處理輸入的文本。Transformer采用的多頭注意力機(jī)制,可以獲得多個(gè)維度的信息。本文模型將BERT的輸出結(jié)果輸入BiLSTM[8]層中。

        2.2 BiLSTM層

        BiLSTM接收BERT輸出的向量作為輸入,從而獲得更加全面的語義信息。BiLSTM對每個(gè)訓(xùn)練序列應(yīng)用一個(gè)前向和后向LSTM網(wǎng)絡(luò),兩個(gè)LSTM網(wǎng)絡(luò)連接到同一個(gè)輸出層。LSTM計(jì)算主要是三個(gè)門結(jié)構(gòu):輸入門、遺忘門和輸出門。具體計(jì)算公式如下所示:

        [it=σ(Wi?[ht-1,Xt]+bi)] (1)

        [ft=σ(Wf?[ht-1,Xt]+bf)] (2)

        [Ct=tanh(WC?[ht-1,Xt]+bC)] (3)

        [ot=σ(Wo?[ht-1,Xt]+bo)] (4)

        [Ct=ft*Ct-1+it*Ct)] (5)

        [ht=ot*tanh(Ct)] (6)

        其中,[Wi]、[Wf]、[Wo]是加權(quán)矩陣,[bi]、[bf]、[bo]是LSTM的偏差。[it]、[ft]、[ot]分別代表t時(shí)刻的輸入門、遺忘門和輸出門,[Xt]表示在t時(shí)刻的輸入,[ht]表示在t時(shí)刻的輸出。

        2.3 CRF層

        條件隨機(jī)場(CRF)[9]是一種以指定的隨機(jī)變量為輸入,解決隨機(jī)輸出變量的條件概率分布的算法。近年來,它被廣泛應(yīng)用于詞性標(biāo)記、句法分析和命名實(shí)體識別等領(lǐng)域。CRF可以考慮相鄰標(biāo)記結(jié)果之間的關(guān)系,并在全文中得到最優(yōu)的標(biāo)記序列結(jié)果。CRF的基本算法定義如下:

        [S(x,y)=i=1nAyi-1yi+i=0npi].[yi] " " " "(7)

        [P(y|x)=eS(x,y)~y∈YxeS(x, ~y)]" " " " " " " " " " " " " " (8)

        其中BiLSTM層的輸出結(jié)果定義為[Pmn],其中n表示單詞數(shù),m表示標(biāo)簽類別。其中,[Pij]表示第i個(gè)標(biāo)簽與第j個(gè)標(biāo)簽匹配的概率。對于輸入的句子序列x={x1,x2,...,xn}及其預(yù)測的序列y={y1,y2,...,yn}。

        3 實(shí)驗(yàn)

        3.1 數(shù)據(jù)集與數(shù)據(jù)預(yù)處理

        本文將在化妝品輿情領(lǐng)域單獨(dú)構(gòu)建的輿情數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集。自建語料庫從專業(yè)和權(quán)威網(wǎng)站通過爬蟲獲取有關(guān)化妝品輿情(如百度、微博)的數(shù)據(jù)。對需要處理的數(shù)據(jù)采用BIO標(biāo)注方式,其中,B表示實(shí)體的第一個(gè)字,I表示第二個(gè)單詞以及后面的字和O表示不屬于特定實(shí)體的詞。

        3.2 實(shí)驗(yàn)參數(shù)設(shè)置

        3.3評價(jià)指標(biāo)

        本文采用三個(gè)常見的指標(biāo),即精度(P)、召回率(R)和F1來評估模型。計(jì)算公式如下:

        [Pi=TPiTPi+FPi]" " " " " " " " " " " " " " " "(9)

        其中P代表精確度,TP表示實(shí)際正類,預(yù)測也為正類的數(shù)量,F(xiàn)P表示實(shí)際負(fù)類,預(yù)測為正類的數(shù)量。

        [R=TPiTPi+FNi]" " " nbsp; " " " " " " " " " " " "(10)

        其中R代表召回率,TP表示實(shí)際正類,預(yù)測也為正類的數(shù)量,F(xiàn)N表示實(shí)際正類,預(yù)測為負(fù)類的數(shù)量。

        [F1=P*R*2P+R ]" " " " " " " " " " " " " " " " " (11)

        其中P為精確度,R為召回率。

        3.4結(jié)果分析

        實(shí)驗(yàn)結(jié)果如表2所示,筆者的模型在P、R、F1三個(gè)指標(biāo)上均取得了更好的效果。此外,通過對比不同模型之間的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn),BERT+CRF模型的性能高于BERT+Softmax模型,證明了CRF模型可以有效解決標(biāo)簽之間的依賴關(guān)系,避免生成錯(cuò)誤的標(biāo)簽序列。BERT+Bi-LSTM模型的性能高于BERT+CRF模型與BERT+Softmax模型,證明了雙向長短時(shí)記憶網(wǎng)絡(luò)可以有效利用上下文信息,并可以有效建模序列特征之間的依賴。

        4 結(jié)束語

        本文提出了一種基于Bert-BiLSTM-CRF的化妝品輿情實(shí)體關(guān)系提取模型,該模型通過Bert對文本進(jìn)行向量化,隨后利用BiLSTM模型學(xué)習(xí)上下文信息,更好地進(jìn)行特征提取,進(jìn)而完成實(shí)體關(guān)系的提取。實(shí)驗(yàn)結(jié)果表明,本文提出的模型相較于其他深度學(xué)習(xí)模型在性能上更優(yōu)。

        參考文獻(xiàn):

        [1] Li Q,Ji H.Incremental joint extraction of entity mentions and relations[J].52nd Annual Meeting of the Association for Computational Linguistics,ACL 2014 - Proceedings of the Conference,2014,1:402-412.

        [2] Bai T,Guan H T,Wang S,et al.Traditional Chinese medicine entity relation extraction based on CNN with segment attention[J].Neural Computing and Applications,2022,34(4):2739-2748.

        [3] Socher, Richard" Semantic Compositionality through Recursive Matrix-Vector Spaces.EMNLP ,2012.

        [4] Miwa M,Bansal M.End-to-end relation extraction using LSTMs on sequences and tree structures[J].54th Annual Meeting of the Association for Computational Linguistics,ACL 2016 - Long Papers,2016,2:1105-1116.

        [5] Zhang Y H,Zhong V,Chen D Q,et al.Position-aware attention and supervised data improve slot filling[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural\n Language Processing.Copenhagen,Denmark.Stroudsburg,PA,USA:Association for Computational Linguistics,2017s.

        [6] Gao S X,Du J L,Zhang X.Research on relation extraction method of Chinese electronic medical records based on BERT[C]//Proceedings of the 2020 6th International Conference on Computing and Artificial Intelligence.Tianjin,China.New York:ACM,2020:487-490.

        [7] Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL].2018:arXiv:1810.04805.https://arxiv.org/abs/1810.04805

        [8] Chen C M.Feature set identification for detecting suspicious URLs using Bayesian classification in social networks[J].Information Sciences,2014,289:133-147.

        [9] Lafferty J D,McCallum A,Pereira F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the Eighteenth International Conference on Machine Learning.New York:ACM,2001:282-289.

        【通聯(lián)編輯:唐一東】

        自拍偷拍一区二区三区四区| 欧美疯狂做受xxxx高潮小说| 国产亚洲日韩欧美一区二区三区 | 国产精在线| 日本草逼视频免费观看| 东北老熟女被弄的嗷嗷叫高潮| 国产精品久久久久精品一区二区| 午夜福利电影| 老熟女一区二区免费| 一区二区三区观看视频在线| 午夜不卡无码中文字幕影院| 四房播播在线电影| 精品视频在线观看一区二区三区| 国产亚洲3p一区二区| 久久96国产精品久久久| 丰满人妻妇伦又伦精品国产| 国产AV高清精品久久| 蜜桃精品视频一二三区| 久久不见久久见免费影院国语| 国产尤物精品自在拍视频首页| 日本肥老熟妇在线观看| 国产成人精品人人做人人爽97| 天堂а√在线最新版中文在线 | 国产精品23p| 色噜噜精品一区二区三区| 国产自拍视频在线观看网站| 久久久久久国产精品无码超碰动画 | 爆乳午夜福利视频精品| 国产免费成人自拍视频| 国产午夜福利久久精品| 成人伊人亚洲人综合网站222| 婷婷开心五月综合基地| 亚洲天堂成人av在线观看| 免费观看又色又爽又黄的| 中文字幕人成人乱码亚洲| 五月婷婷开心五月播五月| 女人被爽到高潮视频免费国产 | 亚洲欧美另类激情综合区| 欧美日韩国产乱了伦| 美女免费视频观看网址| 亚洲av无码一区二区三区不卡|