亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于cw2vec-BiLSTM-CRF的汽車(chē)名稱(chēng)和屬性識(shí)別方法

        2020-07-13 05:53:48李德玉王佳王素格
        關(guān)鍵詞:產(chǎn)品評(píng)價(jià)模型

        李德玉,王佳,王素格

        (1.山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2.山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)

        0 引言

        隨著社交媒體、網(wǎng)絡(luò)論壇的流行,消費(fèi)者更多地通過(guò)社交媒體、網(wǎng)絡(luò)論壇來(lái)發(fā)表自己對(duì)于已購(gòu)買(mǎi)產(chǎn)品的評(píng)價(jià),評(píng)論中既包含對(duì)產(chǎn)品整體的評(píng)價(jià),也包含了對(duì)產(chǎn)品某一部件或是某一性能的評(píng)價(jià),而且,一些潛在消費(fèi)者也會(huì)發(fā)表自己對(duì)于新產(chǎn)品的期待。在產(chǎn)品評(píng)論領(lǐng)域中,用戶(hù)評(píng)論經(jīng)常帶有明確的指向,例如,針對(duì)產(chǎn)品的某一部分或某一功能做出評(píng)價(jià)。為了對(duì)這些評(píng)論文本進(jìn)行處理、分析、歸納和推理[1],抽取其評(píng)價(jià)對(duì)象是必不可少的環(huán)節(jié)[2-3],而評(píng)價(jià)對(duì)象在評(píng)價(jià)文本中包括被評(píng)論中產(chǎn)品名稱(chēng)或產(chǎn)品屬性。

        對(duì)于評(píng)價(jià)對(duì)象的抽取,目前已經(jīng)有許多相關(guān)工作,大致分為兩大類(lèi):基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法?;谝?guī)則的方法有江騰蛟等人[2]結(jié)合語(yǔ)義角色標(biāo)注與依存句法分析,設(shè)計(jì)了評(píng)價(jià)對(duì)象-情感詞對(duì)抽取規(guī)則,用于解決評(píng)價(jià)對(duì)象構(gòu)成的復(fù)雜性問(wèn)題。Li等人[3]利用情感詞典和主題詞詞典篩選出〈情感詞,評(píng)價(jià)對(duì)象〉的組合,使用該二元組中的評(píng)價(jià)詞與評(píng)價(jià)對(duì)象之間的關(guān)系進(jìn)行抽取。Popescu等人[4]利用互信息算法抽取特性。基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法有王榮洋等人[5]采用CRF模型,探索了多種特征在評(píng)價(jià)對(duì)象抽取任務(wù)中的性能,并將特征歸納為詞法、依存關(guān)系、相對(duì)位置、語(yǔ)義四大類(lèi)別,引入語(yǔ)義角色標(biāo)注新特征,表明其提出的語(yǔ)義角色標(biāo)注特征對(duì)評(píng)價(jià)對(duì)象抽取有較好地指示作用。鄭敏潔等人[6]提出了一種基于層疊條件隨機(jī)場(chǎng)的中文句子評(píng)價(jià)對(duì)象抽取方法。該方法首先通過(guò)低層條件隨機(jī)場(chǎng)獲得候選評(píng)價(jià)對(duì)象集,然后通過(guò)降噪模型對(duì)噪聲進(jìn)行過(guò)濾,補(bǔ)充模型對(duì)缺失的候選評(píng)價(jià)對(duì)象進(jìn)行補(bǔ)充,合并模型對(duì)復(fù)合短語(yǔ)候選評(píng)價(jià)對(duì)象進(jìn)行合并,最后抽取出評(píng)價(jià)對(duì)象。實(shí)驗(yàn)結(jié)果顯示,該方法能有效地識(shí)別復(fù)合詞評(píng)價(jià)對(duì)象和未登錄評(píng)價(jià)對(duì)象,從而提高了中文句子評(píng)價(jià)對(duì)象的識(shí)別精度。近年來(lái),研究者不斷將深度學(xué)習(xí)技術(shù)應(yīng)用于評(píng)價(jià)對(duì)象的抽取任務(wù),李盛秋等人[7-8]將長(zhǎng)短期記憶模型(LSTM)應(yīng)用于手機(jī)、筆記本、相機(jī)和汽車(chē)四個(gè)領(lǐng)域評(píng)價(jià)對(duì)象的抽取,實(shí)驗(yàn)證明LSTM在評(píng)價(jià)對(duì)象抽取任務(wù)上有較好的表現(xiàn)。程夢(mèng)等人[9]利用雙向LSTM和注意力機(jī)制,對(duì)句子進(jìn)行了重新表示,并使用CRF模型對(duì)屬性進(jìn)行了標(biāo)注。上述研究是針對(duì)評(píng)價(jià)對(duì)象實(shí)體進(jìn)行單獨(dú)抽取,并沒(méi)有考慮評(píng)價(jià)屬性。若能同時(shí)正確抽取出評(píng)價(jià)對(duì)象實(shí)體與屬性,可以更快捷地獲取到評(píng)價(jià)產(chǎn)品更多的信息。

        在產(chǎn)品評(píng)論中,用戶(hù)不僅關(guān)心評(píng)價(jià)產(chǎn)品實(shí)體,同時(shí)也關(guān)注評(píng)價(jià)產(chǎn)品屬性。通過(guò)對(duì)大量真實(shí)產(chǎn)品評(píng)論文本的觀察發(fā)現(xiàn),產(chǎn)品評(píng)價(jià)對(duì)象經(jīng)常以這三種方式出現(xiàn):①產(chǎn)品的整體;②產(chǎn)品的某個(gè)部件;③產(chǎn)品的特性及其外延[10]。例如:在汽車(chē)評(píng)論文本中,被評(píng)價(jià)的對(duì)象通常有:“奔馳依舊是表現(xiàn)最出色的”“豐田的車(chē)型真是好看”“寶馬的安全、質(zhì)量和口碑真是沒(méi)得說(shuō)”。為了敘述的方便,本文對(duì)上述情形不再細(xì)分,我們將第①類(lèi)的評(píng)價(jià)對(duì)象稱(chēng)為“產(chǎn)品名稱(chēng)”,例句中,“奔馳”“豐田”“寶馬”就是評(píng)價(jià)產(chǎn)品名稱(chēng);第②類(lèi)和第③類(lèi)的評(píng)價(jià)對(duì)象統(tǒng)稱(chēng)為“產(chǎn)品屬性”。例句中的“車(chē)型”“安全”“質(zhì)量”“口碑”即為評(píng)價(jià)產(chǎn)品屬性。為了同時(shí)抽取汽車(chē)產(chǎn)品名稱(chēng)和產(chǎn)品屬性,本文引入了挖掘中文內(nèi)部筆畫(huà)信息的cw2vec模型,并將雙向長(zhǎng)短期記憶模型(BiLSTM)結(jié)合CRF模型,構(gòu)建了cw2vec-BiLSTM-CRF模型,用于汽車(chē)產(chǎn)品名稱(chēng)和產(chǎn)品屬性的抽取。通過(guò)在汽車(chē)產(chǎn)品的評(píng)論數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,cw2vec模型和BiLSTM-CRF模型的結(jié)合識(shí)別的汽車(chē)產(chǎn)品名稱(chēng)和產(chǎn)品屬性性能更加有效。

        1 cw2vec-BiLSTM-CRF模型構(gòu)建

        1.1 cw2vec[11]

        目前已經(jīng)存在很多的詞向量模型,但是較多的詞向量模型都是基于西方語(yǔ)言,然而,由于中文書(shū)寫(xiě)和西方語(yǔ)言完全不同,單個(gè)英文字符是不具備語(yǔ)義的,而中文漢字往往具有很強(qiáng)的語(yǔ)義信息,中文詞語(yǔ)包含很少的中文字符,然而,中文字符內(nèi)部包含了較強(qiáng)的語(yǔ)義信息,因此,本文使用了基于漢字筆畫(huà)信息的中文詞向量模型cw2vec[11]來(lái)訓(xùn)練詞向量,以達(dá)到充分利用中文字符內(nèi)部的語(yǔ)義信息的目標(biāo)。

        cw2vec模型是使用一種基于n元筆畫(huà)的損失函數(shù),公式如下:

        λEw′~P[logsigmoid(-sim(w,w′))]

        (1)

        其中,w和c分別表示當(dāng)前詞語(yǔ)和上下文的詞語(yǔ),T(w)是當(dāng)前詞語(yǔ)上下文窗口內(nèi)的所有詞語(yǔ)集合,D是訓(xùn)練語(yǔ)料,λ是負(fù)采樣的數(shù)量。Ew′~P[·]是期望,并且選擇的負(fù)采樣w′服從分布P,主要按照詞頻分布,因此,語(yǔ)料中出現(xiàn)次數(shù)越多的詞語(yǔ)越容易被采樣。詞語(yǔ)相似性計(jì)算函數(shù)構(gòu)造如下:

        (2)

        (1)詞語(yǔ)分割:把中文詞語(yǔ)分割為單個(gè)字。

        (2)詞語(yǔ)筆畫(huà)信息獲取:將詞語(yǔ)按照字的筆畫(huà)獲取信息,并將這些筆畫(huà)信息合并,得到詞語(yǔ)的筆畫(huà)信息。

        (3)筆畫(huà)特征數(shù)字化:將筆畫(huà)劃分為5類(lèi),利用數(shù)字1-5表示,其對(duì)應(yīng)關(guān)系如表1所示。

        表1 筆畫(huà)名稱(chēng)與數(shù)字的對(duì)應(yīng)關(guān)系

        (4)N元筆畫(huà)特征獲取:提取詞語(yǔ)筆畫(huà)信息的N-gram特征。

        以“寶馬車(chē)型好看”為例,分詞結(jié)果為:寶馬 車(chē)型 好看;以“車(chē)型”為當(dāng)前詞語(yǔ),其上下文詞為:寶馬、好看。cw2vec模型表示如圖1所示。

        圖1 以“寶馬車(chē)型好看”為示例的cw2vec模型表示

        如圖1所示,對(duì)于“寶馬 車(chē)型 好看”。首先將當(dāng)前詞語(yǔ)“車(chē)型”拆解成n元筆畫(huà),并找出其數(shù)字編碼,然后按照窗口大小得到所有n元筆畫(huà),計(jì)算當(dāng)前詞語(yǔ)的n元筆畫(huà)和上下文詞語(yǔ)的相似度,再根據(jù)損失函數(shù)求梯度,并對(duì)上下文詞向量和n元筆畫(huà)向量進(jìn)行更新。最后,利用上下文詞向量(context word embedding)作為最終cw2vec模型的輸出詞向量。

        1.2 BiLSTM-CRF

        LSTM是一種基于序列標(biāo)注數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。輸入序列變量(x1,x2, …,xn),返回相對(duì)應(yīng)的另一個(gè)序列(h1,h2,…,hn)。LSTM模型通過(guò)特有的門(mén)結(jié)構(gòu)來(lái)保持和更新?tīng)顟B(tài),以達(dá)到長(zhǎng)期記憶功能,并且已經(jīng)被證明該模型能夠捕獲長(zhǎng)距離依賴(lài)信息[12-14]。短期記憶模型中“三門(mén)”記憶單元計(jì)算公式分別如下:

        it=σ(Wxixt+Whiht-1+Wcixt-1+bi,

        (3)

        ft=σ(Wxfxt+Whfht-1+Wcfxt-1+bf) ,

        (4)

        ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc) ,

        (5)

        ot=σ(Wxoxt+Whoht-1+Wcoxt-1+bo) ,

        (6)

        ht=ottanh(ct) ,

        (7)

        其中,σ是logistic sigmoid 函數(shù),i表示輸入門(mén),f表示遺忘門(mén),o表示輸出門(mén),c表示神經(jīng)元向量。所有計(jì)算過(guò)程中的向量維度都與隱藏層向量h維度保持一致。其中,Whi表示隱藏層輸入門(mén)矩陣,Wxo表示輸入-輸出門(mén)矩陣等。其中,權(quán)重矩陣是神經(jīng)單元到門(mén)向量的對(duì)角矩陣,因此,每個(gè)元素在每一個(gè)門(mén)單元中只接收當(dāng)前元素的單元向量。

        CRF主要綜合了隱馬爾科夫模型和最大熵模型的優(yōu)點(diǎn)。在CRF模型中,已知輸入序列x=x1,…,xn-1,xn的情況下,可求出輸出序列Y的概率p(y|x)最大時(shí)的狀態(tài)序列,因此,CRF模型可用來(lái)解決序列標(biāo)注問(wèn)題[16]。y的條件概率定義如下:

        (8)

        其中tk(yi-1,yi,x,i),sk(yi,x,i)表示特征函數(shù),λk,μk是其相對(duì)應(yīng)的權(quán)重,Z(x)表示歸一化函數(shù):

        1.3 使用cw2vec-BiLSTM-CRF模型抽取汽車(chē)領(lǐng)域產(chǎn)品名稱(chēng)和產(chǎn)品屬性

        為了同時(shí)抽取評(píng)論文本中的評(píng)價(jià)對(duì)象和評(píng)價(jià)屬性,本文利用cw2vec進(jìn)行詞向量表示,再結(jié)合BiLSTM和CRF兩種模型進(jìn)行抽取,其網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖2所示。

        圖2 BiLSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        整個(gè)抽取過(guò)程如下:

        (1)使用了BIO標(biāo)注法來(lái)對(duì)汽車(chē)領(lǐng)域產(chǎn)品評(píng)論語(yǔ)料進(jìn)行標(biāo)注,標(biāo)注格式見(jiàn)表2所示。

        表2 句子序列標(biāo)注格式

        (9)

        再用softmax層計(jì)算出所有可能標(biāo)簽的概率如公式(10)。

        (10)

        再將公式進(jìn)行變換得到公式(11)

        (11)

        (3)多次迭代后,不斷調(diào)整網(wǎng)絡(luò)參數(shù),獲得得分最高的序列作為預(yù)測(cè)標(biāo)記的正確序列。

        2 實(shí)驗(yàn)

        2.1 實(shí)驗(yàn)數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

        為了對(duì)模型進(jìn)行有效性評(píng)估,本文收集了汽車(chē)領(lǐng)域6 577條用戶(hù)評(píng)論數(shù)據(jù),并進(jìn)行了手工標(biāo)注。其中5 311條評(píng)論數(shù)據(jù)作為訓(xùn)練集,1 266條評(píng)論數(shù)據(jù)作為測(cè)試集。

        產(chǎn)品名稱(chēng)與產(chǎn)品屬性的識(shí)別評(píng)價(jià)指標(biāo)采用準(zhǔn)確率(P)、召回率(R)和綜合指標(biāo)(F值)。

        2.2 實(shí)驗(yàn)方案

        為了對(duì)比各類(lèi)方法在汽車(chē)領(lǐng)域產(chǎn)品名稱(chēng)與屬性抽取任務(wù)中的性能,選取以下幾種方法進(jìn)行比較:

        1)CRF:利用條件隨機(jī)場(chǎng)模型,結(jié)合詞特征抽取產(chǎn)品名稱(chēng)和產(chǎn)品屬性。

        2)word2vec-BiLSTM:利用雙向LSTM抽取產(chǎn)品名稱(chēng)和產(chǎn)品屬性。

        3)word2vec-BiLSTM-CRF:結(jié)合BiLSTM和CRF抽取產(chǎn)品名稱(chēng)和產(chǎn)品屬性。

        4)cw2vec-BiLSTM:使用cw2vec進(jìn)行word embedding后,使用雙向LSTM抽取產(chǎn)品名稱(chēng)和產(chǎn)品屬性。

        5)cw2vec-BiLSTM-CRF:使用cw2vec進(jìn)行word embedding后,結(jié)合BiLSTM和CRF抽取產(chǎn)品名稱(chēng)和產(chǎn)品屬性。

        2.3 實(shí)驗(yàn)結(jié)果與分析

        根據(jù)第2.2節(jié)的設(shè)置的實(shí)驗(yàn),列出了5種方法在同一數(shù)據(jù)集上實(shí)驗(yàn)的得到的結(jié)果,實(shí)驗(yàn)結(jié)果見(jiàn)表3,其中,表中的“OB”表示產(chǎn)品名稱(chēng)、“AT”表示產(chǎn)品屬性。

        由表3在汽車(chē)領(lǐng)域產(chǎn)品名稱(chēng)與屬性識(shí)別任務(wù)的5種方法的性能,可以看到:

        (1)使用cw2vec模型后,相比于僅使用通用word2vec模型,準(zhǔn)確率、召回率、F值都有所提升。

        (2)使用CRF模型的F值是最低的。然而無(wú)論是采用word2vec還是cw2vec作為詞表示,再與LSTM模型結(jié)合使用,所有的指標(biāo)均有所提升,說(shuō)明詞向量表示是有效的。

        (3)BiLSTM-CRF與BiLSTM相比,產(chǎn)品名稱(chēng)和產(chǎn)品屬性的抽取準(zhǔn)確率都有很大提升,表明融合了CRF模型后,通過(guò)結(jié)合前后標(biāo)簽將有利于預(yù)測(cè)當(dāng)前標(biāo)簽,然而,召回率卻有所降低。

        表3 5種方法的性能對(duì)比

        (4)5種方法識(shí)別產(chǎn)品名稱(chēng)的指標(biāo)均高于識(shí)別產(chǎn)品屬性的指標(biāo)。主要原因是專(zhuān)業(yè)名詞多集中在產(chǎn)品屬性,例如“渦輪增壓器”“渦輪進(jìn)氣口”等,造成識(shí)別難度較大。

        通過(guò)分析識(shí)別出的產(chǎn)品名稱(chēng)與產(chǎn)品屬性,對(duì)實(shí)驗(yàn)結(jié)果的錯(cuò)誤分析如下:

        (1)因產(chǎn)品名稱(chēng)與產(chǎn)品屬性之間沒(méi)有明確的界限,對(duì)預(yù)測(cè)結(jié)果產(chǎn)生了一定的影響。例如“2013款本田雅閣”“本田NEWCIVIC”“16.4grand 超跑”等這類(lèi)“品牌+型號(hào)”組合的產(chǎn)品名稱(chēng),在產(chǎn)品名稱(chēng)和屬性識(shí)別時(shí)出現(xiàn)了錯(cuò)誤標(biāo)記。

        (2)在線(xiàn)用戶(hù)產(chǎn)品評(píng)論用詞偏口語(yǔ)化,對(duì)汽車(chē)產(chǎn)品名稱(chēng)多有別稱(chēng)、簡(jiǎn)寫(xiě),也給識(shí)別帶來(lái)了困難。例如“benz”(奔馳的別稱(chēng))為產(chǎn)品名稱(chēng),未能正確識(shí)別。

        (3)當(dāng)屬性詞前加定語(yǔ)修飾時(shí),例如“后排空間”“品牌價(jià)值”“廣告成本”“配件質(zhì)量”等詞,識(shí)別時(shí)出現(xiàn)漏掉定語(yǔ)的情況,僅抽取出“空間”“價(jià)值”“成本”“質(zhì)量”作為產(chǎn)品屬性。

        (4)當(dāng)出現(xiàn)動(dòng)詞性短語(yǔ)時(shí),容易識(shí)別錯(cuò)誤。例如“渦輪進(jìn)氣口松動(dòng)不算大問(wèn)題”,此句中“渦輪進(jìn)氣口松動(dòng)”為一個(gè)整體。

        3 結(jié)論

        針對(duì)汽車(chē)領(lǐng)域眾多評(píng)論文本的分析,需要明確識(shí)別產(chǎn)品名稱(chēng)產(chǎn)品屬性問(wèn)題。本文采用了BiLSTM-CRF模型,并結(jié)合了能挖掘出中文字符筆畫(huà)特征信息的cw2vec模型,提出了一種基于cw2vec-BiLSTM-CRF深度學(xué)習(xí)模型的實(shí)體識(shí)別方法。該方法利用可以記憶上文信息的LSTM 模型作為隱藏層,融合了 CRF 作為標(biāo)簽推理層,從而解決了文本序列標(biāo)簽依賴(lài)問(wèn)題,同時(shí)采用了cw2vec模型,使得中文字符內(nèi)部包含的語(yǔ)義信息得到有效利用。在汽車(chē)領(lǐng)域數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),驗(yàn)證了cw2vec-Bi-LSTM-CRF模型在中文汽車(chē)領(lǐng)域產(chǎn)品名稱(chēng)和產(chǎn)品屬性識(shí)別任務(wù)中的有效性。

        猜你喜歡
        產(chǎn)品評(píng)價(jià)模型
        一半模型
        SBR改性瀝青的穩(wěn)定性評(píng)價(jià)
        石油瀝青(2021年4期)2021-10-14 08:50:44
        重要模型『一線(xiàn)三等角』
        重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        2015產(chǎn)品LOOKBOOK直擊
        Coco薇(2015年1期)2015-08-13 02:23:50
        基于Moodle的學(xué)習(xí)評(píng)價(jià)
        保加利亞轉(zhuǎn)軌20年評(píng)價(jià)
        多維度巧設(shè)聽(tīng)課評(píng)價(jià)表 促進(jìn)聽(tīng)評(píng)課的務(wù)實(shí)有效
        體育師友(2012年4期)2012-03-20 15:30:10
        新產(chǎn)品
        玩具(2009年10期)2009-11-04 02:33:14
        日韩人妻无码精品久久免费一| 日韩一区二区肥| 妺妺窝人体色www看人体| 亚洲日韩精品一区二区三区| 色www视频永久免费| 国产精品9999久久久久| 99久久久无码国产精品试看 | 久久精品国产亚洲av忘忧草18| 国产欧美VA欧美VA香蕉在| 99热这里只有精品4| 禁止免费无码网站| 性色av成人精品久久| 国产毛片精品一区二区色| 国产愉拍91九色国产愉拍| 亚洲视频在线观看一区二区三区| 国产亚洲av无码av男人的天堂| 欧美成人www在线观看| 国产精品无码久久久久久| 亚洲中文字幕乱码| 国产精品日本天堂| 国产在线观看不卡网址| 亚洲国产成人久久精品美女av| 91精品国自产拍老熟女露脸| 国产免费又色又爽粗视频| 四川发廊丰满老熟妇| 亚洲男人的天堂网站| 国产99视频精品免费视频免里| 四虎影视国产884a精品亚洲| 一区二区三区日本视频| 日韩精品视频久久一区二区| 国产成人精品亚洲日本在线观看 | 麻豆国产AV网站| 白白白色视频在线观看播放| 国产三级精品av在线| 亚洲av无码专区国产不卡顿| 亚洲av高清在线一区二区三区 | 人人爽人人爽人人片av| 日韩成人极品在线内射3p蜜臀| 波多野结衣在线播放一区| 亚洲综合伊人久久综合| 国内自拍愉拍免费观看|