亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)評(píng)論文本數(shù)據(jù)監(jiān)管處理的優(yōu)化研究*
        ——以茶產(chǎn)品為例

        2022-05-12 13:05:36王書博程貞敏
        情報(bào)雜志 2022年5期
        關(guān)鍵詞:有效性消費(fèi)者文本

        王書博 程貞敏 蘇 渝

        (1.貴州大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院 貴陽 550025;2.貴州大學(xué)管理學(xué)院 貴陽 550025)

        0 引 言

        伴隨著Internet的發(fā)展,網(wǎng)絡(luò)購物開始逐漸走進(jìn)人們的視野,并在不斷發(fā)展的態(tài)勢(shì)中開始成為人們生活中必不可少的東西,也由于網(wǎng)絡(luò)購物的及時(shí)性和物流中心的遍布性為人們的生活提供了極大的便利,使得人們足不出戶就可以買到自己心儀的產(chǎn)品,也促使產(chǎn)品的銷售者能夠?qū)a(chǎn)品的銷售領(lǐng)地不斷拓展,也在不斷改變著管理人員的行為。其中,影響消費(fèi)者和管理者行為的主要因素就是產(chǎn)品的網(wǎng)絡(luò)評(píng)論。對(duì)于消費(fèi)者來說,由于現(xiàn)實(shí)情況中的網(wǎng)絡(luò)評(píng)論并不是每一條都與產(chǎn)品息息相關(guān),而是存在著大量的無效評(píng)論、評(píng)分與評(píng)論內(nèi)容嚴(yán)重不符合、重復(fù)評(píng)論、產(chǎn)品與內(nèi)容嚴(yán)重不符合等情況,使得消費(fèi)者不敢輕易相信欲購買產(chǎn)品的網(wǎng)絡(luò)評(píng)論,從而大幅降低了產(chǎn)品的成交率,但如果產(chǎn)品的評(píng)論足夠有效,能夠?yàn)橄M(fèi)者提供真實(shí)且可靠的信息,那么就會(huì)促使消費(fèi)者產(chǎn)生進(jìn)一步的消費(fèi)行為。對(duì)于管理人員來說,網(wǎng)絡(luò)評(píng)論中有很多關(guān)于產(chǎn)品屬性的評(píng)價(jià)內(nèi)容,是最早反映消費(fèi)者對(duì)于產(chǎn)品態(tài)度的源頭,更是直接知曉產(chǎn)品問題所在的重要信息來源,能夠幫助管理人員及時(shí)對(duì)產(chǎn)品做出相應(yīng)的修改與調(diào)整,以此避免產(chǎn)生更大的負(fù)面影響。

        但是在現(xiàn)實(shí)的網(wǎng)絡(luò)評(píng)論中,網(wǎng)購平臺(tái)生成的短文本信息是由產(chǎn)品的消費(fèi)者產(chǎn)生的非結(jié)構(gòu)化的文本,其中包含了大量的網(wǎng)絡(luò)化語言及特殊性符號(hào)等,導(dǎo)致文本在處理過程中存在一定的障礙。此外,在對(duì)中文進(jìn)行分詞、內(nèi)涵識(shí)別以及同義詞提取時(shí)還存在一定的難度,用于數(shù)據(jù)處理的情感詞典或者標(biāo)注語料等必備工具也存在一定的缺失[1],因此,對(duì)于中文文本的數(shù)據(jù)處理及情感度的有效分析還具有很長的路要走,但無可置否,提高對(duì)網(wǎng)絡(luò)評(píng)論的提取效率及提取正確率又具有十分重要的現(xiàn)實(shí)意義和迫切性。因此,本文在當(dāng)前研究成果的基礎(chǔ)上,以茶產(chǎn)品的網(wǎng)絡(luò)評(píng)論文本數(shù)據(jù)為例,提出了Bert+Transformer模型和Bert+XGB模型對(duì)網(wǎng)絡(luò)評(píng)論文本進(jìn)行處理,并通過實(shí)證分析,證明上述兩種模型相較于之前的網(wǎng)絡(luò)評(píng)論文本數(shù)據(jù)的處理手段而言極大地降低了文本處理的錯(cuò)誤率和缺漏率,提高了文本處理的正確性和有效性,從而為消費(fèi)者和管理人員提供了采取何種消費(fèi)和管理行為的數(shù)據(jù)支撐。

        1 文獻(xiàn)綜述

        在已有的研究成果與實(shí)踐中,對(duì)于網(wǎng)絡(luò)評(píng)論的文本數(shù)據(jù)運(yùn)用主要集中在形象感知分析[2]和及情感分類分析[3-5]兩個(gè)方面,其中,對(duì)于情感分類的分析是最常運(yùn)用的領(lǐng)域,尤其是對(duì)微博評(píng)論文本的情感分類分析[1,3],而對(duì)于茶產(chǎn)品網(wǎng)絡(luò)評(píng)論文本的情感分類研究至今仍舊是空白,但不可否認(rèn),分析出人們對(duì)茶產(chǎn)品的情感偏好是進(jìn)一步制定和修改相應(yīng)的銷售、種植等策略的關(guān)鍵所在,因此,對(duì)茶產(chǎn)品的網(wǎng)絡(luò)評(píng)論文本數(shù)據(jù)進(jìn)行情感分類分析具有十分重要的意義,也在一定程度上彌補(bǔ)了網(wǎng)絡(luò)評(píng)論文本數(shù)據(jù)分析和研究領(lǐng)域的空白。

        在對(duì)文本數(shù)據(jù)進(jìn)行處理的基本模型運(yùn)用方面,最常用的單一模型是Bert模型和XGB模型。針對(duì)于Bert模型而言,其主要應(yīng)用的領(lǐng)域則集中在生成式文本內(nèi)容摘要[6]、金融文本情感分析[5]、法律文本內(nèi)容推薦[7]等,注重于內(nèi)容的分析和提取。針對(duì)于XGB模型,其主要的應(yīng)用領(lǐng)域是各行業(yè)的預(yù)測(cè),例如超短期光伏功率預(yù)測(cè)[8]、電信客戶流失預(yù)測(cè)[9]等,注重于行業(yè)趨勢(shì)的探索。兩個(gè)模型都在各自的應(yīng)用領(lǐng)域中具有一定的優(yōu)勢(shì),但是也存在一定的短板,例如在顧及了速率的時(shí)候就不能兼顧正確率,在顧及了內(nèi)容的時(shí)候就不能兼顧效率,因此單一模型在運(yùn)用上存在一定的局限性,從而催生了多模型的結(jié)合運(yùn)用,例如BERT-SUMOPN[6]、Wide & Deep-XGB2LSTM[8]、XGB-BFS[9]等應(yīng)用模型,都做到了兩者兼顧,但是都不曾廣泛應(yīng)用到其他的行業(yè)中,僅僅集中在單一分析領(lǐng)域,更是不曾應(yīng)用到茶產(chǎn)品的網(wǎng)絡(luò)評(píng)論文本處理領(lǐng)域。由此可見,當(dāng)前已經(jīng)存在的模型成果不僅存在一定的數(shù)據(jù)處理精度和效度的缺陷,在領(lǐng)域應(yīng)用方面也存在一定的欠缺。

        從當(dāng)前的研究成果中可以看出,在文本處理的分析內(nèi)容及使用模型等方面都較為成熟,但是并沒有過多涉及其他的行業(yè)和領(lǐng)域,尤其是茶產(chǎn)品的網(wǎng)絡(luò)評(píng)論的文本數(shù)據(jù)處理內(nèi)容。此外,在模型的混合應(yīng)用中,主要是應(yīng)用到行業(yè)預(yù)測(cè)中,而沒有著重提高整個(gè)網(wǎng)絡(luò)評(píng)論文本處理的速率和正確率。但是,茶產(chǎn)品是中國蘊(yùn)含傳統(tǒng)文化的產(chǎn)業(yè),也是極具經(jīng)濟(jì)效益的行業(yè),擁有極高的文化價(jià)值和經(jīng)濟(jì)價(jià)值,并且提高整個(gè)網(wǎng)絡(luò)評(píng)論文本數(shù)據(jù)處理的正確率和效率本身就是一件刻不容緩的事情,在網(wǎng)購盛行的時(shí)代對(duì)網(wǎng)絡(luò)評(píng)論文本數(shù)據(jù)進(jìn)行分類和深入分析具有十分重要的現(xiàn)實(shí)意義和實(shí)踐內(nèi)涵。

        2 文本數(shù)據(jù)基本情況及預(yù)處理

        2.1 茶葉消費(fèi)者評(píng)分?jǐn)?shù)據(jù)基本情況 為了全面挖掘茶產(chǎn)品現(xiàn)階段的優(yōu)勢(shì)和劣勢(shì),本文在某電商平臺(tái)查找銷量較高的綠茶、烏龍茶、紅茶、黃茶、黑茶、白茶六個(gè)類別7七種茶葉,并爬取每種茶葉離當(dāng)前時(shí)間最近的前1 000條評(píng)論及其商品評(píng)分,不足1 000條則全部爬取。共爬取商品評(píng)論及評(píng)分12 305條,在刪除重復(fù)、字?jǐn)?shù)過少和不相關(guān)的評(píng)論后,得到有效評(píng)論9 644條,如表1所示。

        表1 不同茶葉種類的消費(fèi)者評(píng)分

        2.2數(shù)據(jù)預(yù)處理由于網(wǎng)絡(luò)評(píng)論數(shù)據(jù)中夾雜著諸多的英文、錯(cuò)字、繁體字等不利于分詞的元素。因此在分詞之前使用百度翻譯接口和python中繁化簡包與漢字糾錯(cuò)包對(duì)文本做初步處理。之后,本文采用jieba分詞對(duì)全部商品評(píng)論進(jìn)行分詞,并去掉停用詞。對(duì)文本不合規(guī)數(shù)據(jù)預(yù)處理的具體步驟如圖1所示。

        3 茶葉消費(fèi)者評(píng)價(jià)綜合分析

        通過爬取某電商平臺(tái)的茶葉商品評(píng)論數(shù)據(jù)進(jìn)行文本挖掘,首先將評(píng)論進(jìn)行有效性分析,刪除那些復(fù)制和簡單修改的數(shù)據(jù)。之后對(duì)各種類的茶葉的消費(fèi)者評(píng)論文本進(jìn)行語義向量分布式處理,采用Bert模型生成消費(fèi)者評(píng)論文本的語義向量,并構(gòu)建出細(xì)粒度情感分析模型,對(duì)差評(píng)進(jìn)行分類,實(shí)現(xiàn)產(chǎn)品的實(shí)時(shí)改進(jìn)。

        圖1 數(shù)據(jù)預(yù)處理方法

        3.1基于文本挖掘的茶葉消費(fèi)者評(píng)價(jià)分析對(duì)茶葉消費(fèi)者評(píng)分高于3分的消費(fèi)者評(píng)論進(jìn)行近義詞分析,采用Word2Vec詞嵌入法表示詞向量,并對(duì)分布較為相近的詞語進(jìn)行聚類。得到好評(píng)近義詞在消費(fèi)者在口感方面的評(píng)論主要為“甘甜”“香醇”“回味無窮”等;在價(jià)格方面的評(píng)論主要為“實(shí)惠”“不貴”“親民”“劃算”“性價(jià)比”“物美價(jià)廉”等;在包裝方面的評(píng)論主要為“精致”“精美”“大氣”等;在色澤方面的評(píng)論主要為“清澈”“透徹”等;在氣味方面的評(píng)論主要為“香氣”“好聞”等;在養(yǎng)生方面的評(píng)論主要為“健康”“養(yǎng)胃”“高血壓”“高血脂”“解暑”等。

        綜上,消費(fèi)者對(duì)于茶葉進(jìn)行好評(píng)主要是由于茶產(chǎn)品口感甘甜、香醇、價(jià)格實(shí)惠、包裝精美、色澤清澈以及有緩解高血壓、高血脂、養(yǎng)胃解暑的功效。

        本文也對(duì)茶產(chǎn)品消費(fèi)者評(píng)分在3分及以下的消費(fèi)者評(píng)論進(jìn)行了近義詞分析,同理得到茶產(chǎn)品消費(fèi)者差評(píng)近義詞,茶產(chǎn)品消費(fèi)者在口感方面的負(fù)面評(píng)論主要為“陳茶”“苦和澀”等;在價(jià)格方面的評(píng)論主要為“一分錢一分貨”“上當(dāng)”“變來變?nèi)ァ薄安恢怠钡龋辉诎b方面的評(píng)論主要為“碎渣”“破損”等;在色澤方面的評(píng)論主要為“純色”“摻雜”“紅色”“黑色”等。

        綜上所述,茶產(chǎn)品缺陷主要集中于商家售賣陳茶、物流導(dǎo)致包裝破損、茶葉摻雜異物、價(jià)格變動(dòng)頻繁等。

        3.2茶產(chǎn)品消費(fèi)者評(píng)論監(jiān)管為了更加有效地進(jìn)行產(chǎn)品維護(hù),本文將構(gòu)建基于消費(fèi)者評(píng)論反饋的分析系統(tǒng),實(shí)時(shí)對(duì)產(chǎn)品的各個(gè)方面進(jìn)行監(jiān)管,并做出基于反饋內(nèi)容的產(chǎn)品改進(jìn),進(jìn)一步提升消費(fèi)者滿意度。

        反饋分析系統(tǒng)的構(gòu)建分為以下兩個(gè)步驟:一是提取消費(fèi)者評(píng)論中的有效評(píng)論,二是對(duì)有效評(píng)論進(jìn)行細(xì)粒度情感提取,從而獲得消費(fèi)者具體對(duì)哪些方面滿意,對(duì)哪些方面不滿意。

        3.2.1 消費(fèi)者評(píng)論向量化表示 本文在研究中發(fā)現(xiàn),部分消費(fèi)者出于獲取優(yōu)惠等心里,對(duì)茶產(chǎn)品給出較高的評(píng)分,但評(píng)論卻是差評(píng),不僅如此,部分好評(píng)里也含有部分對(duì)某些方面的不滿意。如果單純看評(píng)分情況并不能準(zhǔn)確反映消費(fèi)者對(duì)于茶產(chǎn)品的真實(shí)態(tài)度。因此,文本將放棄店鋪給出的評(píng)分指標(biāo),提出消費(fèi)者評(píng)分細(xì)粒度情感分析模型,期望通過該模型來獲取真實(shí)的網(wǎng)購產(chǎn)品評(píng)價(jià)情況。

        3.2.2 消費(fèi)者評(píng)論有效性篩選

        ① 基于有效性的消費(fèi)者評(píng)論排序與篩選模型構(gòu)建。針對(duì)茶產(chǎn)品的消費(fèi)者評(píng)論常常出現(xiàn)內(nèi)容不相關(guān)、簡單復(fù)制修改和無有效內(nèi)容等現(xiàn)象,例如“寶貝已收到,是我想要的,手感很好,質(zhì)量也挺好,有問題客服也很快就解決了,態(tài)度非常好,一定好評(píng)!物流滿分?,包裝快遞滿分?,配送員態(tài)度滿分?,購物讓人開心,吃土使我快樂~?????????一次很好的購物體驗(yàn),…”這一評(píng)論除標(biāo)點(diǎn)符號(hào)外共413個(gè)漢字,但是評(píng)論內(nèi)容絲毫沒有提及具體的產(chǎn)品,明顯是從他處直接復(fù)制而來,對(duì)消費(fèi)者和分析人員沒有一點(diǎn)幫助。因此,本文通過基于有效性的網(wǎng)絡(luò)評(píng)論文本排序與篩選專利,提出一種更適合茶產(chǎn)品的有效性模型,以期獲得更加有效的網(wǎng)絡(luò)評(píng)論,建模流程如下所示。

        評(píng)論刪除簡單復(fù)制修改模塊:

        步驟一:采用jieba工具對(duì)評(píng)論進(jìn)行分詞,對(duì)評(píng)論做詞級(jí)的相似度檢驗(yàn);

        步驟二:令a=第一條評(píng)論和第二條評(píng)論合在一起不重復(fù)的次數(shù),b = (第一條評(píng)論不重復(fù)的詞數(shù)+第二條評(píng)論不重復(fù)的詞數(shù));

        步驟三:若 (b-a) / a > 0.9則表示兩條評(píng)論相似度高,可認(rèn)為其中一條為簡單復(fù)制修改后的評(píng)論,予以刪除;

        步驟四:重復(fù)上述過程,在任意兩條評(píng)論均對(duì)比完成停止。

        評(píng)論有效性模塊:

        步驟一:采用詞性標(biāo)注工具對(duì)消費(fèi)者評(píng)論進(jìn)行標(biāo)注;

        步驟二:對(duì)待排序評(píng)論集中的名詞出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),并按詞頻從高到低提取出評(píng)論數(shù)乘以1%之前的高頻名詞構(gòu)建評(píng)論目標(biāo)的特征集。并根據(jù)具體要求設(shè)置輔助特征詞;

        步驟三:依次對(duì)待排序評(píng)論集中的每一條評(píng)論進(jìn)行處理,得到每條評(píng)論中涉及的特征數(shù);

        步驟四:將評(píng)論中的每一個(gè)詞與特征詞集進(jìn)行對(duì)照,若評(píng)論詞既是特征集中的詞又是輔助特征詞,則將評(píng)論詞的權(quán)重賦值為2,若評(píng)論詞只是特征集中的詞而不是輔助特征詞,則將評(píng)論詞權(quán)重賦值為1,若評(píng)論詞不是特征集中的詞,則將評(píng)論詞權(quán)重賦值為0;

        步驟五: 依次將待排序評(píng)論集中的每一條評(píng)論的所有權(quán)重求和,若評(píng)論中不涉及任何一個(gè)輔助特征詞則評(píng)論的總分值為0,并按照權(quán)重之和將評(píng)論從高到低進(jìn)行排序;

        步驟六 :將每條評(píng)論權(quán)重之和作為消費(fèi)者評(píng)論的有效性評(píng)分,篩選出有效和無效評(píng)論。

        ② 特征集構(gòu)建。本文首先采用Hanlp分詞器對(duì)消費(fèi)者評(píng)論進(jìn)行分詞,在Hanlp自然語言處理類庫中封裝好的Hanlp類中共有5種分詞器,分比為維特比分詞器、雙數(shù)組trie樹分詞器、條件隨機(jī)場(chǎng)分詞器、感知機(jī)分詞器、N最短路分詞器。本文選擇默認(rèn)的維特比分詞器來對(duì)網(wǎng)評(píng)文本進(jìn)行分詞,并對(duì)不同評(píng)論分詞后相似度超過90%的詞匯進(jìn)行去重,只保留發(fā)表時(shí)間最早的評(píng)論中的詞匯。統(tǒng)計(jì)出各類茶產(chǎn)品消費(fèi)者評(píng)論的所有名詞詞頻,并按詞頻從高到低提取出評(píng)論數(shù)乘以1%(本文為74個(gè))之前的高頻名詞,并將這些高頻名詞作為構(gòu)建特征集的特征。

        ③ 消費(fèi)者評(píng)論有效性評(píng)分統(tǒng)計(jì)。由于Word2Vec所得到的好評(píng)詞和差評(píng)詞及其近義詞(在3.1章節(jié))比一般的特征詞更能體現(xiàn)出評(píng)論對(duì)于產(chǎn)品的描述,因此本文將他們稱為輔助特征詞,在此說明一點(diǎn),輔助特征詞不一定在特征詞集中。

        將評(píng)論中的每一個(gè)詞與特征詞集進(jìn)行對(duì)照,若評(píng)論詞既是特征集中的詞又是輔助特征詞,則將評(píng)論詞的權(quán)重賦值為2,若評(píng)論詞只是特征集中的詞而不是輔助特征詞,則將評(píng)論詞權(quán)重賦值為1,若評(píng)論詞不是特征集中的詞,則將評(píng)論詞權(quán)重賦值為0。以此得到評(píng)論中每個(gè)詞的權(quán)重,將權(quán)重求和得到的值作為這條評(píng)論的有效性評(píng)分,若評(píng)論中不涉及任何一個(gè)輔助特征詞則有效性評(píng)分直接為0。根據(jù)有效性評(píng)分篩選出有效性評(píng)分高、中、低三個(gè)層次的評(píng)論并做表。其中,表2、表3為高、中層次得分排名前5位的評(píng)論,表4為低層次代表評(píng)論。

        以每個(gè)表中的第一條評(píng)論為例進(jìn)行分析,從高層次有效性評(píng)分的第一條評(píng)論“上班的時(shí)候經(jīng)常帶幾包去,有些同事也喝過,都說好喝,茶葉肥大厚實(shí),泡出的茶湯清澈明亮,茶香撲面而來,細(xì)細(xì)品味下回甘十足,說實(shí)話,確實(shí)比店里便宜得多,而且茶葉也味道好。鐵觀音茶一直是我喜歡的那一種,一種清香淡雅的香味,獨(dú)立的包裝,干凈整潔,適合各種場(chǎng)合飲用??诟胁诲e(cuò)!茶葉色澤嫩綠,口味純正,沖泡的湯色金黃清徹,韻味醇厚,喜歡用白瓷泡鐵觀音,色香味俱全,喝茶就是一種提升氣質(zhì)的生活態(tài)度”可以發(fā)現(xiàn),該條評(píng)論分層次描述了茶產(chǎn)品和店鋪物流的各類信息,能夠幫助消費(fèi)者更加詳細(xì)了解產(chǎn)品的細(xì)節(jié),加深消費(fèi)者對(duì)產(chǎn)品的印象,也給其他消費(fèi)者提供了很多可以參考的意見。

        從中層次有效性評(píng)分的第一條評(píng)論“茶葉品質(zhì)不錯(cuò),很清香,茶湯清透,口感不錯(cuò),包裝精美,性價(jià)比高!”中可以發(fā)現(xiàn),該條評(píng)論雖然也對(duì)茶產(chǎn)品個(gè)別特征進(jìn)行了介紹,但并沒有介紹完整,沒有提到產(chǎn)品好在哪里或差在什么地方,而是選擇產(chǎn)品的部分內(nèi)容進(jìn)行描述,但是也對(duì)消費(fèi)者提供了借鑒與參考,對(duì)消費(fèi)者和評(píng)論監(jiān)管有一定的幫助性。

        從低層次有效性評(píng)分的第一條評(píng)論“一直在買這家的茶葉,茶葉真心不錯(cuò),杠杠的”中可以發(fā)現(xiàn),該條評(píng)論在字?jǐn)?shù)上和高層次有效性評(píng)論以及中層次有效性評(píng)論相比均比較少,并沒有指出評(píng)論內(nèi)容的描述對(duì)象與產(chǎn)品特色,對(duì)消費(fèi)者的參考意義并不是很大,因此將其歸類為有效性較低的評(píng)論較為合理。第二條評(píng)論則更具典型性,該評(píng)論是這一小節(jié)開頭所舉的例子,可以看到,評(píng)論被模型判為了0分,模型的優(yōu)越性進(jìn)一步展現(xiàn)出來。

        表2 部分高層次有效性評(píng)分的消費(fèi)者評(píng)論

        表3 部分中層次有效性評(píng)分的消費(fèi)者評(píng)論

        表4 部分低層次有效性評(píng)分的消費(fèi)者評(píng)論

        通過評(píng)論的有效性分析,得分為0的評(píng)論對(duì)消費(fèi)者而言沒有參考價(jià)值,對(duì)于監(jiān)管人員也沒有分析的必要,可以將其直接刪除,從而節(jié)省了時(shí)間,降低了成本。經(jīng)過刪除后的樣本數(shù)量從9 644條減少到了6 822條,具體結(jié)果如表5所示。

        表5 根據(jù)有效性刪除樣本后不同茶葉種類的消費(fèi)者評(píng)分

        3.2.3 消費(fèi)者評(píng)論細(xì)粒度情感提取

        a. 細(xì)粒度情感提取模型簡介。由于爬取的網(wǎng)評(píng)并沒有情感標(biāo)簽因此無法直接帶入模型,本文只能通過手工標(biāo)注的方式構(gòu)建評(píng)論數(shù)據(jù)集,數(shù)據(jù)詳情如表6和表7所示。該數(shù)據(jù)集包括每條評(píng)論對(duì)茶葉口感、價(jià)格、包裝、色澤和氣味5個(gè)指標(biāo)的評(píng)價(jià),每個(gè)指標(biāo)包括好、不相關(guān)、差三類標(biāo)簽,標(biāo)簽對(duì)應(yīng)取值分別為1、0、-1。將訓(xùn)練好的Bert模型用于茶產(chǎn)品消費(fèi)者評(píng)論的預(yù)測(cè),從而提取出消費(fèi)者對(duì)茶產(chǎn)品不同方面的情感觀點(diǎn),為茶產(chǎn)品的改進(jìn)提供借鑒與參考。

        表6 手工標(biāo)注數(shù)據(jù)集及其評(píng)價(jià)指標(biāo)

        表7 手工標(biāo)注后各個(gè)指標(biāo)標(biāo)簽的數(shù)量

        b. 數(shù)據(jù)增強(qiáng)。對(duì)本文所引入的手工標(biāo)注數(shù)據(jù)集各項(xiàng)指標(biāo)進(jìn)行統(tǒng)計(jì)分析[10],發(fā)現(xiàn)各指標(biāo)的不相關(guān)標(biāo)簽和評(píng)價(jià)為好的標(biāo)簽占比很高,該數(shù)據(jù)集屬于不平衡數(shù)據(jù)集。樣本不均衡會(huì)嚴(yán)重影響到模型的性能和對(duì)少數(shù)類樣本的捕捉準(zhǔn)確度,因此,必須對(duì)外部數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)充或者數(shù)據(jù)刪除處理。

        在此說明,由于測(cè)試集為本文最終評(píng)判模型效果的數(shù)據(jù),因此不能做以上數(shù)據(jù)增強(qiáng),也不能人為改變其分布結(jié)構(gòu),所以此處的數(shù)據(jù)增強(qiáng)只針對(duì)于開發(fā)集[11]。以8∶2的比例劃分開發(fā)集和測(cè)試集(開發(fā)集訓(xùn)練模型,測(cè)試集判定模型效果),再以8∶2的比例將開發(fā)集分為訓(xùn)練集和驗(yàn)證集(訓(xùn)練集讓模型學(xué)習(xí)數(shù)據(jù)信息,驗(yàn)證集給予模型反饋?zhàn)屇P瓦M(jìn)行調(diào)整)。

        a.現(xiàn)有數(shù)據(jù)擴(kuò)充。首先對(duì)數(shù)據(jù)進(jìn)行回譯擴(kuò)充,將一句話依次翻譯成多國語言后再翻譯回漢語。其次對(duì)數(shù)據(jù)集中-1類標(biāo)簽的評(píng)論按逗號(hào)進(jìn)行拆分,并統(tǒng)計(jì)評(píng)論拆分后的子文本個(gè)數(shù)。當(dāng)子文本個(gè)數(shù)大于3時(shí),將同一評(píng)論中的不同子文本打亂順序[12],并重新進(jìn)行排列組合,每條評(píng)論組合3段,排列6次。假定評(píng)論ri包括x1、x2、x3、x4四個(gè)子文本,即ri={x1,x2,x3,x4},表明該評(píng)論的子文本個(gè)數(shù)大于3,則將該評(píng)論隨機(jī)組合為{x1}、{x2}、{x3,x4}三段新文本,并以不同順序排列為新的文本,從而使原有的少數(shù)類評(píng)論新增5條。

        b.構(gòu)造少數(shù)類數(shù)據(jù)。文本中種類最多的是不相關(guān)的數(shù)據(jù),這類數(shù)據(jù)與標(biāo)簽值為-1的樣本沒有對(duì)立的字段,若要將其修改成負(fù)評(píng)價(jià)樣本不需要對(duì)樣本進(jìn)行修改,只需要加上對(duì)應(yīng)的負(fù)面評(píng)價(jià)即可變成該指標(biāo)下的負(fù)面評(píng)論,例如口感這一指標(biāo)可以根據(jù)開發(fā)集提煉出口感差評(píng)的關(guān)鍵字段:“苦的”“苦和澀”“茶苦”“苦味”“不好喝”“味道差”“難喝”“沒有味道”“口感不好”“口感差”“口感太苦”“喝不習(xí)慣”“口感一般”“味道一般”“口感苦澀”“沒有茶味”“勉強(qiáng)能喝”“只能說能喝”“味道苦澀”“味道太淡”“味道有點(diǎn)淡””等。因此本文使用上述方法盡量做到負(fù)面評(píng)價(jià)樣本占總樣本數(shù)的1/5以上。

        例如,在未進(jìn)行數(shù)據(jù)增強(qiáng)時(shí),開發(fā)集上“口感”這一指標(biāo)中,好評(píng)、不相關(guān)和差評(píng)數(shù)據(jù)分別為2 420條、2 896條和188條,可以看出,差評(píng)樣本遠(yuǎn)遠(yuǎn)少于其他兩類。經(jīng)過數(shù)據(jù)增強(qiáng)后,開發(fā)集上三類標(biāo)簽數(shù)量分別為2 420條、2 896條和2 118條,可以看出,經(jīng)過增強(qiáng)后的三類標(biāo)簽的數(shù)量相差不大。

        c. 模型效果。采用經(jīng)過預(yù)訓(xùn)練的Bert+Transformer模型對(duì)茶產(chǎn)品的消費(fèi)者評(píng)論的每一項(xiàng)指標(biāo)分別進(jìn)行情感提取,從而得到對(duì)評(píng)論的情感提取結(jié)果。模型評(píng)價(jià)指標(biāo)如下:

        精確率(Precision)=

        在進(jìn)行數(shù)據(jù)增強(qiáng)前,模型對(duì)5個(gè)指標(biāo)負(fù)面情緒的識(shí)別效果不佳,模型對(duì)于-1標(biāo)簽的召回率很低,模型對(duì)負(fù)面評(píng)論的識(shí)別效果很差,特別是對(duì)于價(jià)格、包裝和氣味的負(fù)面評(píng)論根本就無法識(shí)別(準(zhǔn)確率、召回率和F1分?jǐn)?shù)均為0),這是因?yàn)樵?822條數(shù)據(jù)中,僅有不到100條評(píng)論涉及這三個(gè)指標(biāo)的負(fù)面評(píng)論,占比太少,導(dǎo)致模型不能有效地進(jìn)行學(xué)習(xí)。表8是經(jīng)過數(shù)據(jù)增強(qiáng)后,模型對(duì)5個(gè)指標(biāo)情緒識(shí)別的結(jié)果,可以發(fā)現(xiàn),所有-1標(biāo)簽不論是準(zhǔn)確率、召回率還是F1分?jǐn)?shù)都要低于另外兩類,這是由于負(fù)面情緒樣本太少,數(shù)據(jù)集嚴(yán)重不均衡導(dǎo)致的,本文通過數(shù)據(jù)增強(qiáng)手段將模型的準(zhǔn)確率都提升到60%以上,效果顯著。除了“價(jià)格”和“包裝”兩個(gè)指標(biāo)的三項(xiàng)評(píng)價(jià)指標(biāo)偏低以外(可能是由于價(jià)格中“一分錢一分貨”等字段正負(fù)情緒判別難度較大導(dǎo)致),另外三個(gè)指標(biāo)的所有評(píng)價(jià)指標(biāo)值都良好??傮w而言,尤其是召回率,所有指標(biāo)均大于70%,“色澤”和“氣味”的召回率甚至達(dá)到了90%以上。

        表8 茶產(chǎn)品消費(fèi)者評(píng)論情感提取結(jié)果

        為更直觀地看出模型效果,本文將分析兩種模型、利用評(píng)分和利用差評(píng)關(guān)鍵字段的方式對(duì)消費(fèi)者差評(píng)評(píng)論的捕捉能力。之所以看差評(píng)捕捉能力,是由于相比于好評(píng)和不相關(guān)評(píng)論,差評(píng)帶給監(jiān)管者的信息要多得多,同時(shí)也對(duì)消費(fèi)者是否產(chǎn)生購買行為的影響更大。由于評(píng)分不能反映細(xì)粒度問題,本文在此假設(shè)評(píng)分低的評(píng)論都是不喜歡茶葉某個(gè)指標(biāo)的(實(shí)際上只利用評(píng)分情況也只能這么做,在找到差評(píng)后看消費(fèi)者對(duì)哪方面不滿意)。

        由表9可以看出,對(duì)于每一個(gè)指標(biāo)而言,Bert+Transformer模型和Bert+XGB模型這兩種混合模型,無論是對(duì)負(fù)面情緒樣本的捕捉能力,還是捕捉精度上面都要遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)手段上僅使用關(guān)鍵字段提取和利用評(píng)分選擇的方法。針對(duì)于本文提出的兩種模型而言,基于Bert的深度學(xué)習(xí)Transformer模型比基于Bert的機(jī)器學(xué)習(xí)XGBoost模型捕捉到的差評(píng)數(shù)更多,并且基于Bert的XGBoost模型將更多的好評(píng)也判定為了差評(píng),但是基于Bert的XGBoost模型的實(shí)現(xiàn)速度更快,所以兩種混合模型各自有各自的優(yōu)點(diǎn),具體選擇哪種混合模型可視情況而定。綜上,證明了本文提出的模型是更加有效的,具有極強(qiáng)的實(shí)踐意義。

        表9 不同模型對(duì)各項(xiàng)指標(biāo)的細(xì)粒度負(fù)面情感提取結(jié)果

        4 總 結(jié)

        本文在前人技術(shù)的研究基礎(chǔ)上,進(jìn)行了方法和內(nèi)容的創(chuàng)新,主要的貢獻(xiàn)體現(xiàn)在以下幾個(gè)方面:

        a.彌補(bǔ)了在網(wǎng)絡(luò)評(píng)論文本分析行業(yè)中茶產(chǎn)品網(wǎng)絡(luò)評(píng)論文本無人研究的空白,并深度挖掘了茶產(chǎn)品網(wǎng)絡(luò)評(píng)論文本的情感內(nèi)容分析和內(nèi)容提取,為茶產(chǎn)品的發(fā)展提供了相應(yīng)的改進(jìn)和深化的可靠依據(jù),也為其他行業(yè)的網(wǎng)絡(luò)評(píng)論文本處理提供了更加高效的方法。

        b.從消費(fèi)者的角度出發(fā),分別構(gòu)建了評(píng)論的有效性模型和細(xì)粒度情感分析模型,評(píng)論的有效性排序后可以讓消費(fèi)者提高獲取產(chǎn)品信息的效率,讓消費(fèi)者能更快速地看到那些對(duì)其想要購買的產(chǎn)品有參考價(jià)值的評(píng)論,從而使消費(fèi)者能更早地下定決心是否購買產(chǎn)品,也提高了消費(fèi)者購買行為決策的正確性。

        c.從管理者的角度出發(fā),構(gòu)建的細(xì)粒度情感分析模型能夠分析出產(chǎn)品的內(nèi)在特質(zhì)等問題,從而更加及時(shí)和準(zhǔn)確地分析出消費(fèi)者現(xiàn)階段對(duì)產(chǎn)品的哪些地方滿意以擴(kuò)大產(chǎn)品優(yōu)勢(shì),對(duì)哪些地方不滿意以便于管理者及時(shí)做出相應(yīng)的調(diào)整彌補(bǔ)不足。

        d.多模型結(jié)合運(yùn)用,打破了當(dāng)前的模型壁壘,從而提高了模型提取數(shù)據(jù)的效率和正確率,使得網(wǎng)絡(luò)評(píng)論文本數(shù)據(jù)處理更加正確和高效,為消費(fèi)者和管理者都提供了一定的便利,也擴(kuò)充了模型的多樣性和實(shí)現(xiàn)了模型多領(lǐng)域的可應(yīng)用性,具有極強(qiáng)的實(shí)踐價(jià)值。

        猜你喜歡
        有效性消費(fèi)者文本
        消費(fèi)者網(wǎng)上購物六注意
        如何提高英語教學(xué)的有效性
        甘肅教育(2020年6期)2020-09-11 07:45:28
        制造業(yè)內(nèi)部控制有效性的實(shí)現(xiàn)
        提高家庭作業(yè)有效性的理論思考
        甘肅教育(2020年12期)2020-04-13 06:24:56
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        知識(shí)付費(fèi)消費(fèi)者
        悄悄偷走消費(fèi)者的創(chuàng)意
        悄悄偷走消費(fèi)者的創(chuàng)意
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        免费黄色电影在线观看| 热99re久久精品这里都是精品免费 | 国产动作大片中文字幕| 无码人妻丰满熟妇区毛片| 久久久久久夜精品精品免费啦| 欧美性生交大片免费看app麻豆| 9 9久热re在线精品视频| 看av免费毛片手机播放| 久久无码人妻一区二区三区午夜 | 国产黄色污一区二区三区| 亚洲一区二区女优视频| 日本免费一二三区在线| 好大好湿好硬顶到了好爽视频 | 国产亚洲精品久久久久久国模美| a级毛片100部免费看| 蜜臀av无码精品人妻色欲| 精品高潮呻吟99av无码视频| 九九久久国产精品大片| 黑人巨大亚洲一区二区久| 国产av丝袜熟女丰满一区二区| 精品偷拍被偷拍在线观看| 国产伦精品一区二区三区免费| 最新国产日韩AV线| 青青草视频国产在线观看 | 看黄色亚洲看黄色亚洲| 亚洲国产熟女精品传媒| 日本免费a级毛一片| 欧美成人一区二区三区在线观看| 午夜无码亚| 日韩精品一区二区三区av| 亚洲一区二区三区99| 亚洲日产一线二线三线精华液| 伊人一道本| 久久久人妻丰满熟妇av蜜臀| 中国老熟女露脸老女人| 亚洲精品第一国产综合精品| 久久久久亚洲精品无码网址色欲| 日本少妇被爽到高潮的免费| 亚洲av少妇一区二区在线观看| 九九九免费观看视频| 欧美丰满熟妇aaaaa片|