魏 娟
(南京信息工程大學(xué)管理工程學(xué)院,江蘇 南京 210044)
隨著網(wǎng)上購物的普及和Web 2.0 的發(fā)展,購物平臺(tái)和社交網(wǎng)站產(chǎn)生了大量的用戶生成內(nèi)容,這些海量內(nèi)容包含了用戶心理和行為數(shù)據(jù),以及對(duì)產(chǎn)品或服務(wù)的使用體驗(yàn)。 大數(shù)據(jù)驅(qū)動(dòng)的智能制造科學(xué)與方法體系正在形成,數(shù)據(jù)驅(qū)動(dòng)的研究方法在效率和客觀性方面有其獨(dú)特的優(yōu)勢,對(duì)海量在線評(píng)論的智能分析引起了諸多領(lǐng)域研究人員的關(guān)注。 通過文本挖掘,提取用戶需求、用戶滿意度、情感傾向、評(píng)論生成意愿、產(chǎn)品設(shè)計(jì)改進(jìn)思路等。 賈丹萍等以手機(jī)產(chǎn)品評(píng)論為例,結(jié)合感性工學(xué)理論和情感分析,有效地獲取用戶感性需求;在線評(píng)論中蘊(yùn)含消費(fèi)者對(duì)產(chǎn)品的關(guān)注點(diǎn),馮坤等使用LDA 模型提取在線評(píng)論中的主題,以此作為顧客滿意度的影響因素;陸蔚華等從用戶在線評(píng)論數(shù)據(jù)中提取出用戶需求,將其與產(chǎn)品特征相對(duì)應(yīng),基于數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)品智能優(yōu)化設(shè)計(jì)方法,通過聚類算法和多目標(biāo)遺傳算法來優(yōu)化產(chǎn)品設(shè)計(jì)。 通過情感分析可以計(jì)算用戶對(duì)產(chǎn)品屬性的關(guān)注度和滿意度,同樣可以挖掘出用戶不滿意的產(chǎn)品特征,楊程等基于評(píng)論大數(shù)據(jù)提出了產(chǎn)品設(shè)計(jì)改進(jìn)方法。 因此,從海量評(píng)論數(shù)據(jù)中提取出用戶關(guān)心的產(chǎn)品特征和屬性顯得尤為重要。 本研究使用TextRank 算法提取出用戶關(guān)心的產(chǎn)品屬性,并根據(jù)專業(yè)領(lǐng)域的相關(guān)知識(shí)對(duì)產(chǎn)品屬性進(jìn)行分類;采用基于情感詞典匹配的方法,獲取用戶在產(chǎn)品屬性層面的情感傾向,并對(duì)情感得分較低的評(píng)論內(nèi)容再次分析,挖掘哪些因素導(dǎo)致了消費(fèi)者的不滿意,為消費(fèi)者購買決策和企業(yè)產(chǎn)品設(shè)計(jì)改進(jìn)提供決策支持。
大多數(shù)B2C 電子商務(wù)網(wǎng)站的產(chǎn)品評(píng)論包括評(píng)論者、評(píng)論內(nèi)容、會(huì)員星級(jí)以及評(píng)論時(shí)間等,使用Python 獲取相應(yīng)產(chǎn)品的評(píng)論數(shù)據(jù)。 高質(zhì)量數(shù)據(jù)是文本挖掘和數(shù)據(jù)分析的前提,因此,必須對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、文本去重、去停用詞、分詞以及詞性標(biāo)注。 使用Python 對(duì)文本進(jìn)行簡單的符號(hào)處理,對(duì)比兩行數(shù)據(jù)是否完全相同;引入停用詞字典,匹配評(píng)論內(nèi)容中的停用詞進(jìn)行刪除;數(shù)據(jù)清洗和去重之后,采用Jieba 分詞工具進(jìn)行分詞和詞性標(biāo)注。
產(chǎn)品屬性在評(píng)論中一般體現(xiàn)為名詞或名詞短語。 完全機(jī)器的產(chǎn)品屬性提取方法,只考慮詞頻等信息,可能會(huì)出現(xiàn)許多無意義的名詞或名詞短語,不能精確篩選出產(chǎn)品自身的屬性。 Jieba 分詞提取關(guān)鍵字有兩種方式——TF-IDF 算法和 TextRank 算法。 TF-IDF 算法是通過詞頻提取關(guān)鍵詞,缺陷是過濾的停用詞有限,而且需要人工處理標(biāo)點(diǎn)符號(hào)和數(shù)字。 TextRank 算法是一種基于圖排序算法,來源于谷歌的PageRank 算法,利用局部詞匯之間的關(guān)系(共現(xiàn)窗口)對(duì)后續(xù)關(guān)鍵詞進(jìn)行排序,直接從文本本身提取,TextRank 算法提取關(guān)鍵詞的步驟如圖1所示。
圖1 TextRank 提取關(guān)鍵詞的步驟
本文使用Jieba 分詞進(jìn)行分詞和詞性標(biāo)注,通過TextRank 算法進(jìn)行詞頻統(tǒng)計(jì),提取出名詞以及名詞短語集合,并計(jì)算權(quán)重,人工識(shí)別產(chǎn)品屬性并進(jìn)行分類。
W
為1;②搜索句子,將情感詞典與句子中的詞語匹配,查找句子中出現(xiàn)的第一個(gè)情感詞,記錄對(duì)應(yīng)的權(quán)值W
;③匹配否定詞詞典,搜索情感詞前出現(xiàn)的否定詞,假設(shè)否定詞的個(gè)數(shù)為n
,賦予否定權(quán)值為(-1);④搜索情感詞的程度副詞,匹配程度副詞詞典對(duì)應(yīng)的權(quán)重W
;⑤按計(jì)算公式(1),計(jì)算情感得分并用score 記錄;⑥搜索下一個(gè)情感詞,重復(fù)以上步驟,進(jìn)行求和運(yùn)算,得到最終句子的情感分值。W
代表初始權(quán)重,W
代表程度副詞的權(quán)重值,W
代表情感值的權(quán)重值,n
代表否定詞的個(gè)數(shù),k
代表句子中共有k
個(gè)情感詞。本研究通過八爪魚數(shù)據(jù)采集軟件,對(duì)京東商城筆記本電腦的商品評(píng)論數(shù)據(jù)進(jìn)行簡易采集,選擇四款價(jià)格相近的筆記本電腦進(jìn)行評(píng)論內(nèi)容以及產(chǎn)品屬性的比較,筆記本電腦的型號(hào)及評(píng)論數(shù)分別為華碩飛行堡壘(990 條)、聯(lián)想拯救者 Y7000(1217 條)、惠普暗影精靈4(993 條)以及戴爾G3(991 條),采集的內(nèi)容包括會(huì)員、評(píng)價(jià)星級(jí)、評(píng)論內(nèi)容、評(píng)論時(shí)間等,并將其保存為.xlsx 文件。
數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、分詞和詞性標(biāo)注。首先,清洗數(shù)據(jù),處理噪聲數(shù)據(jù)、填補(bǔ)缺失值以及糾正數(shù)據(jù)中的不一致。 用Python 語言清洗數(shù)據(jù)中的標(biāo)點(diǎn)符號(hào),并進(jìn)行文本去重,分別剩余798 條、991條、854 條和833 條評(píng)論內(nèi)容。 其次,利用停用詞字典匹配的方法去除停用詞。 最后,使用Jieba 分詞工具,將商品評(píng)論數(shù)據(jù)導(dǎo)入Python 中,對(duì)數(shù)據(jù)進(jìn)行分詞和詞性標(biāo)注。
對(duì)預(yù)處理后的評(píng)論數(shù)據(jù)進(jìn)行詞頻統(tǒng)計(jì)。 由于產(chǎn)品屬性往往是名詞或名詞短語,因此,統(tǒng)計(jì)評(píng)論數(shù)據(jù)中出現(xiàn)的所有名詞,并計(jì)算相應(yīng)詞頻,得到部分名詞的權(quán)重排序,如表1 所示。
表1 名詞權(quán)重排序(部分)
對(duì)四款筆記本電腦分別提取權(quán)重排名前100 的名詞,對(duì)這些名詞進(jìn)行人工識(shí)別。 同時(shí)依據(jù)筆記本電腦領(lǐng)域的專有名詞,篩選出產(chǎn)品屬性,并對(duì)這些屬性進(jìn)行分類,結(jié)果如表2 所示。
表2 產(chǎn)品屬性分類
構(gòu)建專業(yè)領(lǐng)域的情感詞典,計(jì)算四款筆記本電腦評(píng)論語句的情感得分。 對(duì)比發(fā)現(xiàn),大部分評(píng)論語句的情感得分在120 以下,因此,剔除離群點(diǎn),以免歪曲大多數(shù)消費(fèi)者的真實(shí)評(píng)論。 將情感得分的最高值設(shè)置為120,然后,計(jì)算出每款電腦的平均情感得分。 四款筆記本電腦的平均情感得分依次為:19.97073(惠普暗影精靈4)、15.73094(聯(lián)想拯救者Y7000)、13.70823(戴爾G3)和13.20322(華碩飛行堡壘)。 由此可以看出,消費(fèi)者對(duì)惠普暗影精靈4 的情感得分要明顯高于另外三款,聯(lián)想拯救者Y7000排在第二位,略高于剩余兩款。 在同等價(jià)位下,消費(fèi)者對(duì)惠普暗影精靈4 更為滿意。
將各款電腦的情感得分按降序排列,分別繪制出變化趨勢圖,如圖2 所示。
圖2 情感得分變化趨勢圖
從圖2 可以看出,情感得分變化趨勢在30 分左右從陡峭趨于平緩。 因此,為了深入對(duì)比四款產(chǎn)品情感得分的分布狀況,將分值劃分為30 分以上、20~30分、10~20 分、0~10 分以及 0 分以下,并繪制條形圖,如圖3 所示。 其中,條形圖中的數(shù)字代表四款產(chǎn)品評(píng)論的情感得分對(duì)應(yīng)五個(gè)等級(jí)的數(shù)量,例如:148 表示聯(lián)想拯救者Y7000 相關(guān)評(píng)論的情感得分在30 分以上的評(píng)論數(shù)、138 表示該款產(chǎn)品評(píng)論的情感得分在20~30 分之間的數(shù)量,以此類推。
圖3 四款筆記本電腦情感得分對(duì)比圖
依據(jù)情感詞之和計(jì)算每一條評(píng)論的情感得分,其中,消極情感詞可能被積極情感詞所中和,再加上電商平臺(tái)會(huì)對(duì)差評(píng)進(jìn)行過濾,因此,負(fù)向情感得分(0 分以下)的評(píng)論相對(duì)較少。 采用主觀劃分的方法,將評(píng)論劃分為兩大類:積極評(píng)論(10 分及以上)和消極評(píng)論(10 分以下)。 從圖3 可以看出,華碩飛行堡壘和戴爾G3 的情感得分分布較為一致, 10 分以下的評(píng)論占評(píng)論總數(shù)的45%;相對(duì)其他產(chǎn)品,聯(lián)想拯救者Y7000 的0 分以下的評(píng)論占比最大,且30分以上的評(píng)論占比也較高,消費(fèi)者對(duì)該產(chǎn)品的評(píng)價(jià)不一致,好壞互現(xiàn);惠普暗影精靈4 的評(píng)論情感得分主要集中在10~30 分,且差評(píng)較少。 綜上所述,消費(fèi)者對(duì)惠普暗影精靈4 的積極評(píng)價(jià)最多,認(rèn)可度最高。
為了詳細(xì)對(duì)比四款產(chǎn)品的特征屬性,依據(jù)已構(gòu)建的產(chǎn)品屬性類別表,繪制出各產(chǎn)品評(píng)論中提及這些屬性的評(píng)論數(shù)量對(duì)比圖,如圖4 所示。
圖4 各屬性的評(píng)論數(shù)量對(duì)比圖
從圖4 可以看出,消費(fèi)者關(guān)注的產(chǎn)品屬性排序?yàn)?性能、質(zhì)量和配置、服務(wù)、外觀、性價(jià)比和便攜性。①性能。 評(píng)論中提及次數(shù)最多的是筆記本電腦的性能,選擇的四款產(chǎn)品都是游戲本,消費(fèi)群體主要集中在追求高性能的辦公族或游戲黨,運(yùn)行速度、處理器、開機(jī)速度等性能指標(biāo)是消費(fèi)者最關(guān)注的屬性。②質(zhì)量和配置。 性能、質(zhì)量和配置會(huì)影響消費(fèi)者的使用體驗(yàn),運(yùn)行噪聲、做工質(zhì)量、散熱情況、護(hù)眼屏幕設(shè)計(jì)、鍵盤鼠標(biāo)等質(zhì)量和配置也是消費(fèi)者較為關(guān)心的產(chǎn)品屬性。 ③服務(wù)。 與線下實(shí)體店不同,線上購買無法體驗(yàn)實(shí)物,遇到各種問題也難及時(shí)解決,所以物流、售后、客服態(tài)度等服務(wù)也是消費(fèi)者關(guān)心的重要環(huán)節(jié)。 ④外觀設(shè)計(jì)。 在性能、質(zhì)量和配置相差不大的情況下,外觀設(shè)計(jì)能吸引消費(fèi)者的目光。 相對(duì)傳統(tǒng)游戲本,聯(lián)想拯救者Y7000 比較輕薄,惠普暗影精靈4 窄邊框設(shè)計(jì)出眾,華碩飛行堡壘的金屬拉絲處理形成視覺沖擊感。 ⑤性價(jià)比和便攜性。 本研究中性價(jià)比和便攜性是提及次數(shù)較少的兩類屬性,這與已有研究結(jié)果存在差異。 原因如下:首先,隨著消費(fèi)水平的不斷提高,消費(fèi)者不再過分追求性價(jià)比,而是更加關(guān)注筆記本電腦的性能、質(zhì)量等產(chǎn)品屬性;其次,選擇的四款產(chǎn)品是游戲本,其主要特征是高性能、厚尺寸和大重量,游戲本一般是放置在家中,不需要外出攜帶,所以消費(fèi)者對(duì)便攜性的關(guān)注相對(duì)較少。
可以依據(jù)各屬性的評(píng)論情感得分深入比較消費(fèi)者對(duì)四款筆記本電腦的青睞程度,如圖5 所示。
圖5 各屬性的情感得分對(duì)比圖
從圖5 可以看出,除了便攜性,惠普暗影精靈4和聯(lián)想拯救者Y7000 全部領(lǐng)先其他兩款電腦;雖然惠普暗影精靈4 中的評(píng)論中提及性價(jià)比和服務(wù)的數(shù)量較少,但是這款產(chǎn)品在兩類屬性的情感得分表現(xiàn)尤其突出;聯(lián)想拯救者Y7000 在質(zhì)量、性能、外觀、配置上領(lǐng)先其他產(chǎn)品,但存在部分極端評(píng)論(情感得分在0 分以下),導(dǎo)致聯(lián)想拯救者Y7000 的平均情感得分低于惠普暗影精靈4。
由評(píng)論中提及屬性的數(shù)量可知,消費(fèi)者較為關(guān)注的是筆記本電腦的性能、配置和質(zhì)量等屬性,在這幾個(gè)方面表現(xiàn)最好的是聯(lián)想拯救者Y7000。 但是,不同的消費(fèi)者有不同的需求,追求性能、配置和質(zhì)量的消費(fèi)者可以考慮購入聯(lián)想拯救者Y7000,而追求性價(jià)比、售后服務(wù)的消費(fèi)者可以考慮購入暗影精靈4,在便攜性上表現(xiàn)最好的是戴爾G3。 相對(duì)其他三款產(chǎn)品,華碩飛行堡壘的表現(xiàn)不是太突出。
筆記本電腦行業(yè)競爭日益激烈,生產(chǎn)廠商想在市場取得一席之地,必須時(shí)刻關(guān)注消費(fèi)者的需求和意見。 綜上所述,消費(fèi)者比較關(guān)注性能、質(zhì)量和配置三類產(chǎn)品屬性。 因此,提取這三類屬性的評(píng)論內(nèi)容,對(duì)其中的負(fù)面評(píng)價(jià)進(jìn)行詳細(xì)分析,有助于給商家優(yōu)化產(chǎn)品提供些許建議。
為了保證產(chǎn)品屬性情感得分計(jì)算的準(zhǔn)確性,本研究提取了包含產(chǎn)品屬性的評(píng)論分句,對(duì)產(chǎn)品特征詞及描述詞進(jìn)行記錄和識(shí)別,從負(fù)面評(píng)論中篩選評(píng)論分句。 而負(fù)面評(píng)論也會(huì)包含正向情感詞,所以評(píng)論分句的產(chǎn)品屬性情感得分不能完全真實(shí)地反映產(chǎn)品的缺陷。 基于情感詞典匹配的方法運(yùn)行速度慢,提取出的分句多,用來判斷哪些產(chǎn)品屬性需要改進(jìn)不夠準(zhǔn)確。 因此,這里采用Python 中的snowNLP 工具重新計(jì)算負(fù)面評(píng)論分句的情感得分,計(jì)算結(jié)果如表3 所示。 提取出分值小于0.5 的分句,然后篩選出特征詞,進(jìn)行觀察和分析。 具體分析結(jié)果如下:①戴爾G3。 質(zhì)量方面:風(fēng)扇、溫度、噪聲和散熱等質(zhì)量屬性提及較多,表現(xiàn)為“風(fēng)扇聲音大”“溫度過高”和“散熱不好”等;性能方面:主要集中在開機(jī)、系統(tǒng)等幾個(gè)屬性詞的描述,主要是因?yàn)榇鳡朑3 預(yù)裝的win10 系統(tǒng),有一些用戶使用不習(xí)慣;配置方面:主要涉及鼠標(biāo)、鍵盤等產(chǎn)品屬性,因?yàn)闆]有贈(zèng)送鼠標(biāo)和電腦包,鍵盤沒有鍵盤燈。 ②華碩飛行堡壘。 質(zhì)量方面:消極評(píng)論同樣集中在溫度、散熱這幾個(gè)屬性詞的描述上,主要為“散熱效果不好”“溫度過高”,但是相對(duì)戴爾G3,風(fēng)扇聲音不大;性能方面:該款產(chǎn)品沒有發(fā)現(xiàn)過多問題,同樣是預(yù)裝的win10 系統(tǒng)使用感不佳。 ③惠普暗影精靈4。 存在游戲本共有的問題:散熱不好、運(yùn)行時(shí)溫度過高。 ④聯(lián)想拯救者Y7000。 這款電腦沒有過多的短板,散熱、噪聲問題在負(fù)面評(píng)論中也沒有被過多提及。
表3 評(píng)論內(nèi)容分句情感得分(部分)
通過挖掘負(fù)面評(píng)論中涉及的主要產(chǎn)品屬性,綜合消費(fèi)者的需求和意見,生產(chǎn)廠商可以從以下方面對(duì)產(chǎn)品設(shè)計(jì)進(jìn)行優(yōu)化:游戲本共有的問題是散熱不好、風(fēng)扇聲音大以及運(yùn)行溫度高,而這正是消費(fèi)者較為關(guān)心的質(zhì)量問題。 因此,建議生產(chǎn)廠商在提高筆記本性能的同時(shí),對(duì)其散熱和風(fēng)扇噪聲問題進(jìn)行改進(jìn)。
在線評(píng)論不僅反映了消費(fèi)者的使用體驗(yàn),還隱含了他們對(duì)產(chǎn)品的期待與需求。 從產(chǎn)品在線評(píng)論中可以提取出用戶最為關(guān)心的產(chǎn)品屬性特征,計(jì)算產(chǎn)品屬性的情感得分,挖掘產(chǎn)品的優(yōu)缺點(diǎn),一方面,可以根據(jù)消費(fèi)者需求進(jìn)行個(gè)性化推薦,另一方面,能夠給生產(chǎn)廠商提供產(chǎn)品設(shè)計(jì)優(yōu)化的建議。
本研究收集京東商城四款筆記本電腦的在線評(píng)論,利用TextRank 算法對(duì)文本中的名詞及名詞短語進(jìn)行統(tǒng)計(jì),挑選排名前100 的名詞,并參考相關(guān)專業(yè)知識(shí),將筆記本電腦的產(chǎn)品屬性分為七類:質(zhì)量、性能、配置、性價(jià)比、服務(wù)、便攜性以及外觀。 運(yùn)用基于詞典匹配的方法和snowNLP 工具對(duì)評(píng)論內(nèi)容和產(chǎn)品屬性進(jìn)行情感分析,結(jié)論如下:
第一,平均情感得分從高到低依次為:惠普暗影精靈4>聯(lián)想拯救者Y7000>戴爾G3>華碩飛行堡壘。 遍歷評(píng)論內(nèi)容,統(tǒng)計(jì)包含各類產(chǎn)品屬性的評(píng)論數(shù)量,挖掘出消費(fèi)者關(guān)心的產(chǎn)品屬性分別為性能、質(zhì)量和配置、服務(wù)、外觀、性價(jià)比和便攜性。
第二,根據(jù)消費(fèi)者的不同需求進(jìn)行個(gè)性化推薦,在對(duì)比的四款產(chǎn)品中,關(guān)注質(zhì)量、性能和配置的,建議購買聯(lián)想拯救者Y7000;偏愛性價(jià)比和服務(wù)的,則建議購買惠普暗影精靈4;注重筆記本電腦的便攜性的,則推薦購買戴爾G3。
第三,通過識(shí)別負(fù)面評(píng)論中的產(chǎn)品屬性,發(fā)現(xiàn)游戲本普遍存在過分追求性能,而導(dǎo)致風(fēng)扇聲音大、散熱效果不好的問題。 游戲本的消費(fèi)群體不再過分關(guān)注性價(jià)比,因此,生產(chǎn)廠商在提高產(chǎn)品性能的同時(shí),可以適當(dāng)增加成本,用于優(yōu)化產(chǎn)品的散熱和降低噪聲。
本研究在實(shí)證分析過程中仍存在需要改進(jìn)的地方,具體概括為:①每條評(píng)論的效用值不同,計(jì)算產(chǎn)品屬性的情感得分時(shí)應(yīng)該考慮每條評(píng)論的效用值;②文本去重的方法不夠嚴(yán)謹(jǐn),沒有完全過濾掉一些重復(fù)度較高而且無意義的評(píng)論;③每個(gè)分句可能涉及不止一個(gè)屬性,以分句的情感得分作為某個(gè)產(chǎn)品屬性評(píng)價(jià)值的方法不夠嚴(yán)謹(jǐn)。