亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于產(chǎn)品評(píng)論的情感標(biāo)注一致性問題分析

        2018-04-20 03:27:56毛雪芬
        文教資料 2018年35期
        關(guān)鍵詞:一致性

        毛雪芬

        摘? ? 要: 隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)上由用戶產(chǎn)生并帶有情感傾向的信息顯著增加。對(duì)產(chǎn)品評(píng)論進(jìn)行語(yǔ)料標(biāo)注并進(jìn)行文本傾向性分析,能夠幫助用戶快速地獲取和理解所需要的信息。如何保證人工標(biāo)注語(yǔ)料的質(zhì)量,是語(yǔ)料工作中無法忽視的問題。基于抽取出的兩位標(biāo)注者對(duì)汽車評(píng)論文本和美妝評(píng)論文本各自標(biāo)注的800句語(yǔ)料數(shù)據(jù),旨在通過比較標(biāo)注一致性,求證以下三點(diǎn)并探究原因:在語(yǔ)料標(biāo)注的過程中不斷細(xì)化標(biāo)注規(guī)范對(duì)提升標(biāo)注一致性是否有顯著作用;相同的標(biāo)注規(guī)范用于不同領(lǐng)域,標(biāo)注一致性是否有明顯差異;不同的標(biāo)注規(guī)范對(duì)同類評(píng)論文本的標(biāo)注一致性是否有明顯影響。

        關(guān)鍵詞: 產(chǎn)品評(píng)論? ? 語(yǔ)料標(biāo)注? ? 一致性? ? 文本傾向性

        1.引言

        隨著互聯(lián)網(wǎng)的快速普及與發(fā)展,用戶開始主動(dòng)參與信息的發(fā)布,帶有情感傾向的信息大量涌現(xiàn)。對(duì)這些信息中用戶所持的看法、觀點(diǎn)、態(tài)度或評(píng)論進(jìn)行挖掘,從而得到該看法或評(píng)論是屬于對(duì)該事物的積極或消極意見,即文本傾向性分析[1],又叫情感分析。

        目前,文本傾向性分析按照文本處理類別的不同,可分為基于新聞評(píng)論和產(chǎn)品評(píng)論的兩類情感分析。產(chǎn)品評(píng)論類情感分析是以Web上用戶發(fā)表的產(chǎn)品評(píng)論為挖掘?qū)ο?,從大量的文本?shù)據(jù)中發(fā)現(xiàn)關(guān)于產(chǎn)品的功能和性能的評(píng)論信息的過程。[2]其中,對(duì)情感信息的抽取是情感分析中最基礎(chǔ)的任務(wù),主要是抽取包含情感傾向的主觀評(píng)論中有價(jià)值的信息元素,如評(píng)論對(duì)象、情感傾向、情感詞等。[3]對(duì)這些情感信息進(jìn)行人工標(biāo)注是情感信息抽取中不可或缺的一環(huán),同時(shí)標(biāo)注的語(yǔ)料也為計(jì)算機(jī)提取文本特征進(jìn)行機(jī)器學(xué)習(xí)提供了數(shù)據(jù)。如何保證人工標(biāo)注語(yǔ)料的質(zhì)量,則是語(yǔ)料標(biāo)注工作中無法忽視的問題。對(duì)多位標(biāo)注者標(biāo)注的語(yǔ)料進(jìn)行標(biāo)注一致性分析,是語(yǔ)料標(biāo)注過程中評(píng)價(jià)語(yǔ)料質(zhì)量的重要指標(biāo)。

        基于汽車評(píng)論文本和美妝評(píng)論文本的情感分析是產(chǎn)品在線跟蹤與質(zhì)量評(píng)論的一個(gè)實(shí)例,也是文本傾向性分析的實(shí)際運(yùn)用。通過收集用戶對(duì)汽車或美妝產(chǎn)品的使用反饋,抽取非結(jié)構(gòu)化的評(píng)論文本中的對(duì)象、屬性、情感單元,獲得用戶對(duì)汽車或美妝的傾向性評(píng)論,不僅方便生產(chǎn)、銷售廠商進(jìn)行針對(duì)性的改進(jìn),而且可以為潛在的消費(fèi)者提供真實(shí)的評(píng)論信息作為參考,還可以構(gòu)建相關(guān)領(lǐng)域的情感詞典,實(shí)現(xiàn)文本傾向性的自動(dòng)分析。

        基于兩位標(biāo)注者對(duì)汽車評(píng)論文本和美妝評(píng)論文本各自標(biāo)注的800句語(yǔ)料,本文旨在通過比較兩位標(biāo)注者之間的標(biāo)注一致性,從而求證以下三點(diǎn)并探究原因:在語(yǔ)料標(biāo)注的過程中不斷細(xì)化標(biāo)注規(guī)范對(duì)提升標(biāo)注一致性是否有顯著作用;相同的標(biāo)注規(guī)范對(duì)不同領(lǐng)域進(jìn)行標(biāo)注一致性是否有明顯差異;不同的標(biāo)注規(guī)范對(duì)同類評(píng)論文本的標(biāo)注一致性是否有明顯影響。

        2.語(yǔ)料標(biāo)注

        2.1標(biāo)注平臺(tái)

        本文選取了汽車評(píng)論文本和美妝評(píng)論文本的語(yǔ)料。每位標(biāo)注者在人工標(biāo)注平臺(tái)(http://106.15.336.135:8080/Annotation/)上都擁有自己的用戶名和ID。標(biāo)注者的標(biāo)注任務(wù)就是從標(biāo)注平臺(tái)自動(dòng)切分的句子中抽取出評(píng)價(jià)三元組,評(píng)價(jià)三元組的內(nèi)容是對(duì)象、屬性、極值,對(duì)象由對(duì)象位置和標(biāo)簽構(gòu)成,屬性由屬性位置和標(biāo)簽構(gòu)成,極值由極性位置和極性構(gòu)成。其中,人工標(biāo)注平臺(tái)會(huì)給出“對(duì)象”標(biāo)簽和“屬性”標(biāo)簽的相應(yīng)標(biāo)簽的下拉選項(xiàng),標(biāo)注者在標(biāo)注時(shí)根據(jù)需要進(jìn)行選擇即可。在標(biāo)注過程中,如遇到平臺(tái)所給標(biāo)簽以外的“對(duì)象”或“屬性”,標(biāo)注者可以與其他標(biāo)注者達(dá)成一致后,在標(biāo)注平臺(tái)上增加“對(duì)象”標(biāo)簽。同理,當(dāng)標(biāo)注者認(rèn)為某對(duì)象標(biāo)簽不必要時(shí),也可與其他標(biāo)注者商量后在平臺(tái)上進(jìn)行刪減。情感極值則需要標(biāo)注者對(duì)文本的情感傾向進(jìn)行判斷。目前的文本情感通常分為兩類(正面、反面)或三類(正面、反面和中立)。其中正面類別是指主題中持有積極的態(tài)度和立場(chǎng);負(fù)面類別是指文本中持有消極的態(tài)度和立場(chǎng);中立類別是指文本中持中立態(tài)度和立場(chǎng)。[4]本次語(yǔ)料標(biāo)注的情感極值采用三類,分別以-1/0/1代表負(fù)面、中立或正面。

        2.2標(biāo)注過程及語(yǔ)料選擇

        汽車評(píng)論文本和美妝評(píng)論文本中的語(yǔ)料,由標(biāo)注者A和標(biāo)注者B分別進(jìn)行標(biāo)注。標(biāo)注過程如下(圖1):第一部分,在標(biāo)注規(guī)范1中,選取汽車語(yǔ)料中的1202-1400句進(jìn)行標(biāo)注,標(biāo)注者進(jìn)行商討后對(duì)汽車語(yǔ)料中的2201-2400句進(jìn)行標(biāo)注。第二部分,參照這一規(guī)范對(duì)美妝語(yǔ)料進(jìn)行1-200句的標(biāo)注。第三部分,運(yùn)用標(biāo)注規(guī)范2,對(duì)汽車語(yǔ)料中的1-200句重新進(jìn)行標(biāo)注。為了便于說明,分別對(duì)這些數(shù)據(jù)簡(jiǎn)要命名:汽車1201-1400(1);汽車2201-2400(1);美妝1-200(1);汽車1-200(2)。

        根據(jù)上述提取出的標(biāo)注語(yǔ)料,對(duì)其進(jìn)行標(biāo)注一致性分析,旨在印證以下幾點(diǎn),并進(jìn)行原因探究:

        (1)在語(yǔ)料標(biāo)注的過程中不斷細(xì)化標(biāo)注規(guī)范對(duì)提升標(biāo)注一致性是否有顯著作用;

        (2)相同的標(biāo)注規(guī)范應(yīng)用于不同領(lǐng)域,標(biāo)注一致性是否有明顯差異;

        (3)不同的標(biāo)注規(guī)范對(duì)同類評(píng)論文本的標(biāo)注一致性是否有明顯影響。

        在上述公式中,Pa是指一致性概率,其中A是標(biāo)注者A和標(biāo)注者B標(biāo)注一致的次數(shù),N是標(biāo)注對(duì)象的總次數(shù);Pe是指期望值,其中M是目標(biāo)詞w的標(biāo)記個(gè)數(shù),Cj是標(biāo)注者A和標(biāo)注者B標(biāo)注為標(biāo)記j的次數(shù)之和。上述公式能夠比較實(shí)際觀測(cè)值和期望值的差異,能夠計(jì)算兩位標(biāo)注者之間的吻合率,從而評(píng)價(jià)標(biāo)注者的標(biāo)注一致性。Kappa值是語(yǔ)料庫(kù)質(zhì)量的重要指標(biāo),通過比較標(biāo)注一致性可以更好地反映標(biāo)注質(zhì)量。

        計(jì)算標(biāo)注一致性的過程:首先從標(biāo)注系統(tǒng)后臺(tái)提取出標(biāo)注者A和標(biāo)注者B針對(duì)汽車評(píng)論文本和美妝評(píng)論文本中同一文本的標(biāo)注語(yǔ)料,本文主要對(duì)評(píng)價(jià)三元組中的“對(duì)象”、“屬性”、“極值”三個(gè)標(biāo)簽分別進(jìn)行Kappa值的計(jì)算,從而對(duì)比標(biāo)注者A和標(biāo)注者B的標(biāo)注一致性。需要說明的是,提取出的標(biāo)注語(yǔ)料中,有些句子不僅僅會(huì)有一個(gè)評(píng)價(jià)三元組,還會(huì)有多個(gè)評(píng)價(jià)三元組。比如“發(fā)動(dòng)機(jī)和變速箱不錯(cuò)”,涉及到了兩個(gè)對(duì)象“發(fā)動(dòng)機(jī)”和“變速箱”,需要增加一個(gè)“對(duì)象”,則導(dǎo)致評(píng)價(jià)三元組的個(gè)數(shù)變多。針對(duì)同一文本,標(biāo)注者標(biāo)注的評(píng)價(jià)三元組個(gè)數(shù)和順序會(huì)存在不一致,從而影響統(tǒng)計(jì)。例如:

        (1)能裝? 能? 跑? 的? 汽車

        標(biāo)注者A<汽車:汽車,動(dòng)力:,1:能跑>

        標(biāo)注者A<汽車:汽車,空間:,1:能裝>

        標(biāo)注者B<汽車:汽車,動(dòng)力:,1:能跑>

        標(biāo)注者B<汽車:汽車,空間:,1:能裝>

        (2)操控? 很? 有? 質(zhì)感? 指向? 精準(zhǔn)

        標(biāo)注者A<汽車:操控,操控:指向,1:精準(zhǔn)>

        標(biāo)注者B<方向盤:,操控:指向,1:精準(zhǔn)>

        標(biāo)注者B<方向盤:操控,舒適性:質(zhì)感,1:有>

        為了便于計(jì)算Kappa值,對(duì)于這類評(píng)價(jià)三元組不一致的的句子采取人工校對(duì)的方式。本文采取的方法是,對(duì)于(1)這種評(píng)價(jià)三元組個(gè)數(shù)相同前后順序不同的句子(簡(jiǎn)稱為“多對(duì)多”),進(jìn)行人工手動(dòng)校對(duì),使之順序上對(duì)齊,方便統(tǒng)計(jì);對(duì)于(2)這種評(píng)價(jià)三元組標(biāo)注個(gè)數(shù)本就不同的句子(簡(jiǎn)稱為“一對(duì)多”),手動(dòng)調(diào)整前后順序,一旦對(duì)象、屬性、極性有一組匹配,則即算作一致。同時(shí)補(bǔ)充出標(biāo)注者A未標(biāo)注的那欄,賦予空值進(jìn)行對(duì)齊。這樣就有了可對(duì)比的數(shù)據(jù)?;诒疚闹饕芯繉?duì)象、屬性、極性的標(biāo)注一致性,語(yǔ)料規(guī)模相對(duì)較少,并且這類句子只是少數(shù),所以這種方法是可行的。在所提取的800句標(biāo)注語(yǔ)料中,出現(xiàn)評(píng)價(jià)三元組“多對(duì)多”、“一對(duì)多”現(xiàn)象的句子個(gè)數(shù)分布如下:

        本文只對(duì)“對(duì)象”、“屬性”、“極性”進(jìn)行標(biāo)注一致性分析,“對(duì)象位置”、“屬性位置”、“極性位置”因?yàn)閷?duì)評(píng)論文本的情感單元長(zhǎng)度和判斷差別較大等因素未進(jìn)行一致性計(jì)算。以汽車評(píng)論文本的對(duì)象標(biāo)簽為例。以下是汽車1-200(1)中出現(xiàn)的所有對(duì)象:

        如此,求出汽車1-200(1)中標(biāo)注者A和標(biāo)注者B的“對(duì)象”標(biāo)簽的Kappa值。以此類推,分別求出汽車1201-1400(1)、汽車2201-2400(1)、美妝1-200(1)、汽車1-200(2)四份語(yǔ)料數(shù)據(jù)的對(duì)象、屬性、極性的標(biāo)注一致性。

        4.標(biāo)注一致性統(tǒng)計(jì)結(jié)果

        通過上述公式進(jìn)行Kappa值計(jì)算,汽車1201-1400(1)、汽車2201-2400(1)、美妝1-200(1)、汽車1-200(2)四份語(yǔ)料的對(duì)象、屬性、極性的標(biāo)注一致性,圖表如下:

        從上述圖表中可以看出總體的標(biāo)注一致性趨勢(shì)。四份標(biāo)注語(yǔ)料中,對(duì)象的標(biāo)注一致性較高于屬性和極性,而屬性的標(biāo)注一致性最差。這符合我們的心理預(yù)期。實(shí)體是獨(dú)立存在的,屬性是附屬于實(shí)體之上的特征,實(shí)體與屬性的關(guān)系是“一對(duì)多”的關(guān)系。實(shí)體較好判斷,屬性的判斷則較為模糊。比如“電動(dòng)座椅和自動(dòng)空調(diào)可能會(huì)更好一點(diǎn)”中,對(duì)象“座椅”和“空調(diào)”顯而易見,而“電動(dòng)”和“自動(dòng)”是指“配置”屬性還是“設(shè)計(jì)”屬性,標(biāo)注者則難以達(dá)成一致。又比如“懸掛太硬”中,“太硬”指的是懸掛的“操控”屬性還是“舒適性”屬性,由于每個(gè)人的認(rèn)知理解不同,也會(huì)有所分歧。諸如此類的問題還有很多。除此之外,還有一類文本,如“這個(gè)價(jià)位的買suv能買多大的空間呢?”、“作為一款落地75w的豪華品牌suv沒有具備與價(jià)格相匹配的豪華感”。這些句子都包含了多種屬性,可以解讀出“價(jià)格高”、“空間小”、“外觀不豪華”等互有聯(lián)系的多重含義,容易干擾標(biāo)注者,在標(biāo)注過程中標(biāo)注者難以避免地會(huì)依據(jù)自己的主觀理解和傾向進(jìn)行標(biāo)注。

        極性標(biāo)注一致性介于對(duì)象和屬性之間,標(biāo)注過程中的極性判斷會(huì)出現(xiàn)正面、負(fù)面、中立和沒有極性四種情況。正面的文本容易做出極性判斷,而后三者則容易有分歧。例如“發(fā)動(dòng)機(jī)還是會(huì)給推你背的”、“自動(dòng)擋油門調(diào)教前段非常肉”中的“推你背”和“肉”是負(fù)面還是正面;“懸掛很硬”是好還是壞;“座椅舒適性湊合吧”是負(fù)面還是中立態(tài)度;“后備箱不是電動(dòng)門”是中性還是沒有極性,等等。這些都影響了極性的標(biāo)注一致性。

        5.標(biāo)注一致性問題分析

        下面通過上述統(tǒng)計(jì)數(shù)據(jù),對(duì)下面的觀點(diǎn)進(jìn)行印證分析:

        (1)在語(yǔ)料標(biāo)注的過程中不斷細(xì)化標(biāo)注規(guī)范對(duì)提升標(biāo)注一致性是否有顯著作用。

        選取同一標(biāo)注規(guī)范框架下,汽車評(píng)論文本中的1201-1400(1)和2201-2400(1)進(jìn)行對(duì)比。從圖4可以看出,標(biāo)注者通過討論,細(xì)化規(guī)范,汽車2201-2400(1)的對(duì)象、屬性的標(biāo)注一致性均有穩(wěn)步提高,并且對(duì)象的標(biāo)注一致性提高較大,Kappa值相比于汽車1201-1400(1)的0.730提高到了0.810。

        這在我們的預(yù)期之中。產(chǎn)品領(lǐng)域的語(yǔ)料標(biāo)注,必然會(huì)受到某一領(lǐng)域的限制。經(jīng)過對(duì)標(biāo)注規(guī)范的不斷細(xì)化,標(biāo)注規(guī)范趨于穩(wěn)定,標(biāo)注者對(duì)汽車領(lǐng)域也有了深入的了解,尤其對(duì)相應(yīng)的實(shí)體對(duì)象更為熟悉。所以提升較大。相比對(duì)象和屬性的提高,汽車2201-2400(1)在極性上卻低于汽車1201-1400(1)。分析語(yǔ)料發(fā)現(xiàn),汽車2201-2400(1)的文本中出現(xiàn)了很多評(píng)論文本,如“不追求極速也就不愿意多花10多萬去買一個(gè)發(fā)動(dòng)機(jī)”、“霧燈也不是標(biāo)配”、“平時(shí)幫拉的物品也可以用在后排座椅上折疊起來”、“車身也用了不少輕量化材料”等句子,造成標(biāo)注者在“中立”和“沒有極性”上有所分歧。

        (2)相同的標(biāo)注規(guī)范應(yīng)用于不同領(lǐng)域,標(biāo)注一致性是否有明顯差異。

        汽車1201-1400(1)語(yǔ)料標(biāo)注后,標(biāo)注者針對(duì)相關(guān)問題進(jìn)行討論,對(duì)規(guī)范進(jìn)行細(xì)化,再進(jìn)行汽車2201-2400(1)的標(biāo)注。之后用此規(guī)范對(duì)美妝評(píng)論文本中的前兩百句進(jìn)行了語(yǔ)料標(biāo)注。所以選取汽車2201-2400(1)和美妝1-200(1)進(jìn)行標(biāo)注一致性對(duì)比較為合理。通過比較數(shù)據(jù)發(fā)現(xiàn),美妝的對(duì)象一致性比較高,但屬性和極性的Kappa值卻較汽車均有所下降。

        美妝評(píng)論文本的對(duì)象一致性較高的原因,可以從表3中得以解釋。從表中可看出,汽車評(píng)論文本的對(duì)象較為分散,而美妝使用高頻的對(duì)象標(biāo)簽僅有“*”、“洗發(fā)乳|洗發(fā)露”和“面膜”三個(gè),出現(xiàn)次數(shù)分別是“109”,“23”,“10”。美妝中的對(duì)象類型不僅較為固定,而且對(duì)象也較為細(xì)化。

        美妝的屬性及極性標(biāo)注一致性結(jié)果出乎意料。因?yàn)槊缞y評(píng)論文本中句子切分更為細(xì)碎,句長(zhǎng)短小,相較汽車中的句子要簡(jiǎn)單許多,按照預(yù)期,標(biāo)注一致性應(yīng)該有所提高。重新對(duì)語(yǔ)料進(jìn)行分析,可能有以下原因:美妝屬性標(biāo)簽的重合性較多,比如“明年雙十一再來你家/雙十一的力度太大了/劃算到爆”,是選“價(jià)格”屬性還是“優(yōu)惠活動(dòng)”屬性,而這種句子在語(yǔ)料中所占比重較大。

        反觀極性,從圖6中可以看出,汽車領(lǐng)域和美妝領(lǐng)域極性類別分布差距大,可見人們?cè)诓煌I(lǐng)域側(cè)重的情感極性不同。比如在美妝領(lǐng)域,有55%是正面評(píng)價(jià),而在汽車領(lǐng)域僅有27%;汽車評(píng)論文本中,非評(píng)價(jià)文本過半(58%),而美妝領(lǐng)域僅有34%。上文提到,正面評(píng)價(jià)較容易判斷,而其他三類則容易有分歧,這應(yīng)該是造成美妝語(yǔ)料中極性降低的原因之一。除此之外,各個(gè)領(lǐng)域有其自身的特點(diǎn)。例如汽車領(lǐng)域的“肉”、“頓挫”、“推背”這些詞,需要在標(biāo)注中慢慢熟識(shí)汽車領(lǐng)域的相關(guān)知識(shí),才能對(duì)這些特定詞語(yǔ)進(jìn)行正確的判斷,如“肉”說的是車的哪個(gè)方面,所表的態(tài)度是好還是不好等。美妝評(píng)論文本的“蒼蠅腿”、“卡粉”、“控油”等詞也是如此。這里不排除美妝因?yàn)槭莿傞_始進(jìn)行前兩百句標(biāo)注對(duì)其不夠熟悉而導(dǎo)致的一致性下降。

        當(dāng)然,在美妝1-200(1)中還存在系統(tǒng)匹配的文本不一致情況,共有4例,如:標(biāo)注者A的語(yǔ)料是“清揚(yáng)水潤(rùn)去屑洗后更滋潤(rùn)”,而標(biāo)注者B的語(yǔ)料是“一直都在用清揚(yáng)很不錯(cuò)”。這種情況也有可能造成美妝1-200(1)標(biāo)注一致性不如預(yù)期理想。

        (3)不同的標(biāo)注規(guī)范對(duì)同類評(píng)論文本的標(biāo)注一致性是否有明顯影響。

        選取汽車2201-2400(1)和汽車1-200(2)進(jìn)行標(biāo)注一致性對(duì)比。數(shù)據(jù)表明,相比使用規(guī)范1標(biāo)注的2201-2400,使用標(biāo)注規(guī)范2標(biāo)注的汽車1-200在對(duì)象、屬性、極性一致性均有所提高。其中對(duì)象標(biāo)簽的一致性提高較顯著,屬性和極性提高不明顯。

        對(duì)這一結(jié)果的分析要結(jié)合兩份標(biāo)注規(guī)范的內(nèi)容來進(jìn)行:

        ①盡管對(duì)象一致性提高明顯,然而新的標(biāo)注規(guī)范只涉及一條具體的規(guī)定:對(duì)象標(biāo)簽中的“汽車”可以作為任何汽車評(píng)價(jià)文本的對(duì)象,默認(rèn)只有在其他實(shí)體沒有出現(xiàn)或者語(yǔ)料中提到的實(shí)體只有“汽車”的情況下,才將“汽車”作為語(yǔ)料實(shí)體。除了這一影響因素之外,對(duì)象標(biāo)注一致性大幅提高的唯一解釋就是標(biāo)注者對(duì)標(biāo)注流程及要點(diǎn)理解趨于穩(wěn)定。

        ②在極性上,標(biāo)注規(guī)范1是以直接態(tài)度詞(心理動(dòng)詞)優(yōu)先,而標(biāo)注規(guī)范2以具體評(píng)論詞優(yōu)先。建議類文本(“要是車身再長(zhǎng)一點(diǎn)就好了”)兩者同樣給定“-1”的極性值。理論上這兩處改變對(duì)于極性值并沒有影響(除非有反語(yǔ),但在標(biāo)注的過程中還未遇到)。唯一有影響的就是對(duì)非評(píng)價(jià)文本的處理。規(guī)范1只標(biāo)注其中的對(duì)象和屬性,規(guī)范2將其視為評(píng)價(jià)文本,所以極性也標(biāo)。極性一致性有所提高,除了這一影響因素外,同上。

        ③標(biāo)注規(guī)范2對(duì)屬性標(biāo)注作了新的調(diào)整,但主要是規(guī)定屬性位置的標(biāo)簽:“后背/座椅/靠背/角度/實(shí)在/不敢/恭維”,這里的屬性標(biāo)簽是舒適性,句子中推斷出舒適性的詞是“靠背角度”。針對(duì)屬性標(biāo)簽,標(biāo)注規(guī)范2規(guī)定要盡可能選擇具體的屬性標(biāo)簽。如:座椅/太/窄。屬性標(biāo)簽可以是空間、設(shè)計(jì),則選擇更具體的“空間”。這是屬性一致性有所提高的原因,然而數(shù)據(jù)上看,屬性沒有得到預(yù)期上的大幅提高,這也反面證明了這一條規(guī)定的難以實(shí)施性。因?yàn)閷傩缘念悇e本身就有所交叉較為模糊,哪一個(gè)是更具體的屬性也存在爭(zhēng)議。

        在本次印證中,可見新的標(biāo)注規(guī)范有利于語(yǔ)料標(biāo)注一致性的提高,但想要有顯著的作用,還需要針對(duì)對(duì)象、屬性、極性有更為詳盡的規(guī)范。盡管本文沒有對(duì)對(duì)象位置、屬性位置、極性位置進(jìn)行標(biāo)注一致性測(cè)試,但可以預(yù)測(cè),在新的標(biāo)注規(guī)范下,標(biāo)注一致性會(huì)有大幅提升。

        6.總結(jié)

        通過對(duì)汽車1201-1400(1)、汽車2201-2400(1)、美妝1-200(1)、汽車1-200(2)這四份語(yǔ)料進(jìn)行“對(duì)象”、“屬性”、“極性”標(biāo)注一致性統(tǒng)計(jì)分析,可以得出,在標(biāo)注一致性上對(duì)象>極性>屬性;與此同時(shí),本文印證,在語(yǔ)料標(biāo)注的過程中通過互相討論,不斷細(xì)化標(biāo)注規(guī)范對(duì)提升標(biāo)注一致性有顯著作用;相同的標(biāo)注規(guī)范對(duì)不同領(lǐng)域的標(biāo)注一致性有所影響,但影響不大;不同的標(biāo)注規(guī)范對(duì)同類評(píng)論文本提升標(biāo)注一致性有作用,作用也不顯著。

        本文還存在以下局限性:(1)由于時(shí)間原因,收集的汽車評(píng)論文本語(yǔ)料和美妝評(píng)論文本語(yǔ)料規(guī)模較小。所以下一步需要加大標(biāo)注力度,形成一定規(guī)模的輿情標(biāo)注語(yǔ)料庫(kù);(2)語(yǔ)料選取并不是在同一文本上反復(fù)標(biāo)注進(jìn)行對(duì)比,所以會(huì)受到很多因素的干擾。(3)由于不同標(biāo)注者對(duì)不同產(chǎn)品領(lǐng)域的熟悉程度以及語(yǔ)言本身的理解多樣性使得在準(zhǔn)確率控制方面存在一定的難度。(4)本文只對(duì)汽車評(píng)論文本和美妝評(píng)論文本的對(duì)象、屬性、標(biāo)簽進(jìn)行標(biāo)注一致性分析,未考慮這三者位置的標(biāo)注一致性,容易影響所得結(jié)論的正確性和合理性;除此之外,還有一些因素會(huì)導(dǎo)致不一致。比如系統(tǒng)分配的文本存在不一致,比如實(shí)際標(biāo)注了但在系統(tǒng)中卻沒有顯示,出現(xiàn)“null”的情況。又比如標(biāo)注者標(biāo)注后沒有進(jìn)行檢查,系統(tǒng)中顯示的分詞和詞性忘記修改,并且會(huì)存在手誤點(diǎn)錯(cuò)或者自身標(biāo)注語(yǔ)句的前后規(guī)范不一致的情況。這就需要標(biāo)注平臺(tái)、標(biāo)注者、標(biāo)注規(guī)范的三方協(xié)調(diào)才能最終提高標(biāo)注一致性。

        參考文獻(xiàn)

        [1]魏志生.情感分析及其在產(chǎn)品評(píng)論中的應(yīng)用研究[D].南京:南京大學(xué),2012.

        [2]施國(guó)良,石峰.基于文本挖掘的不同購(gòu)物網(wǎng)站商品評(píng)論一致性研究[J].現(xiàn)代圖書情報(bào)技術(shù),2011:64-68.

        [3]曲春燕,關(guān)毅,楊錦鋒,趙永杰,劉雅欣.中文電子病歷命名實(shí)體對(duì)象標(biāo)注語(yǔ)料庫(kù)構(gòu)建[J].高技術(shù)通訊,2015,25(2):143-150.

        [4]黃世維.互聯(lián)網(wǎng)信息情感傾向性的研究與實(shí)現(xiàn)[D].西安:西安電子科技大學(xué),2012.

        [5]魏慧玲.文本感分析在產(chǎn)品評(píng)論中的應(yīng)用研究[D].北京:北京交通大學(xué),2014.

        [6]田園.評(píng)論價(jià)一致性對(duì)于產(chǎn)品屬性感知的影響[D].南京:南京大學(xué),2017.

        [7]張虎.漢語(yǔ)語(yǔ)料庫(kù)詞性標(biāo)注一致性檢查及自動(dòng)校對(duì)方法研究[D].太原:山西大學(xué),2005.

        [8]王娜娜.評(píng)論文本情感傾向性分析技術(shù)研究[D].北京:北京交通大學(xué),2017.

        [9]羅亞平.面向網(wǎng)絡(luò)輿情的中文評(píng)論文本情感傾向分析研究[D].大連:東北財(cái)經(jīng)大學(xué),2010.

        猜你喜歡
        一致性
        注重整體設(shè)計(jì) 凸顯數(shù)與運(yùn)算的一致性
        遼寧教育(2022年19期)2022-11-18 07:20:42
        關(guān)注減污降碳協(xié)同的一致性和整體性
        公民與法治(2022年5期)2022-07-29 00:47:28
        商用車CCC認(rèn)證一致性控制計(jì)劃應(yīng)用
        注重教、學(xué)、評(píng)一致性 提高一輪復(fù)習(xí)效率
        對(duì)歷史課堂教、學(xué)、評(píng)一體化(一致性)的幾點(diǎn)探討
        IOl-master 700和Pentacam測(cè)量Kappa角一致性分析
        基于CFD仿真分析的各缸渦流比一致性研究
        ONVIF的全新主張:一致性及最訪問控制的Profile A
        方形截面Rogowski線圈的一致性分析
        基于事件觸發(fā)的多智能體輸入飽和一致性控制
        丝袜美腿亚洲综合第一页| 无码AV高潮喷水无码专区线| YW亚洲AV无码乱码在线观看| 亚洲成aⅴ人片在线观看天堂无码| 精品在线亚洲一区二区三区| 丝袜美腿视频一区二区| 国产精品无码一区二区三区| 秋霞鲁丝片av无码| 免费一区二区三区视频狠狠| 国产av黄色一区二区| 国产亚洲精品国产精品| 人与动牲交av免费| 亚洲av乱码中文一区二区三区 | 久久精品国产91久久性色tv| 国产一区二区三区白浆在线观看| 在线视频观看一区二区| 欧美成人精品a∨在线观看| 久久欧美与黑人双交男男| 亚洲AV无码一区二区三区少妇av | 高清偷自拍亚洲精品三区| 狠狠噜天天噜日日噜| 国产一区二区三区视频大全| 熟女肥臀白浆一区二区| 人人色在线视频播放| 国产成人精选在线不卡| 国产亚洲精品视频在线| 午夜dv内射一区二区| 久久男人av资源网站无码| 99久久这里只精品国产免费| 情av一区二区三区在线观看| 亚洲av成人噜噜无码网站| 牛牛本精品99久久精品88m | 久久精品国产99精品国偷| 狠狠久久av一区二区三区| 国产精品久久国产精麻豆99网站| 18禁美女裸身无遮挡免费网站 | 巨胸喷奶水www视频网站| 久久精品国产亚洲AⅤ无码| 亚洲日本精品一区二区三区 | 玩弄人妻少妇精品视频| 亚洲国产欧美在线成人|