盧新元,盧 泉,黃夢梅,李梓奇
(華中師范大學 信息管理學院,武漢 430079)
在線評論(OnlineCustomerReview,OCR)通常是指由其他購買過特定產(chǎn)品或服務的顧客發(fā)表的,在網(wǎng)頁中緊鄰商品描述的,為促進用戶接受、增進用戶交流的第三方評價。在眾包模式中,這種評論信息,實質(zhì)上就是接包方釋放的一種聲譽信號,是對接包方能力的一種披露方式。接包方通過瀏覽、分析這種聲譽信息,做出購買決策,因此無論在日常網(wǎng)購還是眾包過程中,賣方的聲譽都是潛在買方尤其重視的一種信息。
一般電商網(wǎng)站大多是通過平臺上的每個賣家付出一定的廣告、推廣費用來盈利,因此它希望賣家數(shù)量盡可能多。而好的聲譽機制會使低質(zhì)量賣家交易量減少,直至最終退出電商平臺,因此電商平臺目前的聲譽得分差距小,區(qū)分度不明顯。而眾包網(wǎng)站的盈利模式大部分是通過每筆交易抽取一定的中介費用,即使采用高區(qū)分度的聲譽機制,導致低質(zhì)量賣家減少,眾包網(wǎng)站的收益也不會降低。相反,通過幫助發(fā)包方方便快捷地找到優(yōu)質(zhì)的服務方,眾包網(wǎng)站甚至能實現(xiàn)更多的交易量,獲取更大的收益。
遺憾的是,目前眾包網(wǎng)站所采用基于評論得分(通常為5分制),計算平均分并排序的聲譽評價模型并不能使發(fā)包方滿意。本文收集了在線交流社區(qū)“知乎”上關于豬八戒網(wǎng)的451條討論,大部分評論為字數(shù)超過50字的長篇討論留言,發(fā)現(xiàn)絕大多數(shù)對于豬八戒網(wǎng)的評價均為負面評價(417/451),這說明眾包網(wǎng)站的使用感受偏向負面。
目前,關于電商網(wǎng)站的評論研究已經(jīng)取得了實質(zhì)性進展,不少研究者從評論有用性的角度出發(fā),對評論內(nèi)容的質(zhì)量進行區(qū)分[1-5]。本文試圖借用評論有用性的研究成果,結(jié)合評論得分以及評論文本二者,收集了豬八戒網(wǎng)的95364條評論數(shù)據(jù),經(jīng)過去重、去無用評論的處理后,進行中文分詞并構(gòu)建了一套評論文本的詞庫。結(jié)合人工歸納正、負面情感詞,計算文本的情感傾向,并根據(jù)評論有用性影響因素如時間、金額等對評論情感得分進行集結(jié),最后構(gòu)建出一套接包方聲譽的評價機制。
因此,本文將整個研究的流程劃分為5步,如圖1所示。首先是對豬八戒網(wǎng)站的評論數(shù)據(jù)進行抓取與儲存。隨后對這些數(shù)據(jù)進行預處理,包括去除重復評論及無意義內(nèi)容,以及對所有文本進行中文分詞之后,進行詞頻統(tǒng)計。接下來將得到的高頻詞按照程度、情感傾向進行人工篩選劃分,構(gòu)建各類別的情感詞典。最后,對評論文本進行處理,根據(jù)文本長度和特征確定評論是否有效,計算文本情感傾向得分,并按任務價格、成交時間等維度對情感傾向得分進行加權(quán),集結(jié)得到最終的接包方聲譽得分。
圖1研究流程
通過實際操作發(fā)現(xiàn),高頻詞并沒有出現(xiàn)一定的聚合規(guī)律,因此本文并未繼續(xù)對高頻詞進行聚類,而是采用人工分類的方式對去重、去停用詞、分詞后所得的11836個詞語進行劃分,得到了正、負面情感詞、最高級、次高級、否定詞等詞典。最后根據(jù)這些詞典,構(gòu)建了一套計算情感傾向的算法,并在此基礎上對聲譽值進行計算。
眾包模式因其高效地發(fā)揮利用了外部群體的創(chuàng)造性,得到了如Threadless、Kickstarter、豬八戒、威客中國等網(wǎng)站的廣泛應用。以豬八戒網(wǎng)(http://www.zbj.com/)為例,該公司成立于2006年,是國內(nèi)較早從事眾包類業(yè)務的平臺網(wǎng)站,根據(jù)網(wǎng)站公開資料稱,目前擁有500萬家中外雇主,1000萬家服務商,市場占有率超過80%。本文對截止到2017年8月20日的豬八戒網(wǎng)上“l(fā)ogo設計類”店鋪中成交量最高的前81家店鋪的評論數(shù)據(jù)進行了收集,利用Python語言進行網(wǎng)絡爬蟲的編程實現(xiàn),共得到95364條評論數(shù)據(jù),主要內(nèi)容如表1所示。
表1 主要評論數(shù)據(jù)類型及說明
在閱覽評論的過程中,“習慣性好評”“系統(tǒng)默認好評”類的評論并不能為其他用戶帶來有用的信息。本文將此類評論認定為并未按照真實想法給出的評論,在分析的過程中予以剔除。本文對收集到的95364條評論數(shù)據(jù)進行了如下的操作進行篩除。
第1輪:
(1)刪除文本內(nèi)容重復的評論。
(2)刪除雇主明顯為自身系列店鋪的評論。
以上操作完成后得到59578條數(shù)據(jù),對這些數(shù)據(jù)進行分詞,得到12000余條詞匯,人工對這些詞匯進行整理,找出無意義的評論詞和過短的評論詞,加入停用詞表,共得到1080個停用詞,繼續(xù)進行第二輪篩除操作。
第2輪:
(3)刪除文本長度少于2個字節(jié)的評論。
(4)刪除內(nèi)容明顯無意義的評論。
篩選后得到58824條評論數(shù)據(jù)。其中好評總數(shù)為58565條,中評總數(shù)154條,差評總數(shù)105條。對其進行分詞后,得到11836個詞匯。限于篇幅,現(xiàn)將詞頻前100的詞匯進行簡要的統(tǒng)計,結(jié)果表明在這100個詞頻最高的詞匯中,所有詞匯的詞頻均大于600,并且沒有一個負面情感詞匯。表2是對情感詞匯數(shù)量的統(tǒng)計結(jié)果。
表2 情感詞頻數(shù)統(tǒng)計
結(jié)果顯示,有效評論占全部評論的61.42%,好評占到全部評價的99.56%,評論文本中正面情感詞的個數(shù)為424個,大于負面情感詞個數(shù)185個。這一結(jié)果充分證明了眾包網(wǎng)站充斥著大量的、無用的好評,因此原有的5分制評價得分機制并不能真實反映接包方的聲譽與能力。
近年來在眾包模式、開放式創(chuàng)新的研究過程中,許多研究者采用購物網(wǎng)站中的聲譽評分機制來解決眾包中的信息不對稱問題。由于開放性網(wǎng)絡建立在不確定性環(huán)境中,使用者都以匿名形式進行寬泛靈活的交流。在缺乏強制性法律約束的情況下,信譽是用戶建立相互了解和信任的最重要的手段。然而現(xiàn)存的網(wǎng)站聲譽評價系統(tǒng)還存在以下一種或多種問題:
(1)計算公式并不能準確地反映聲譽。
(2)初始聲譽值設定得太低以至于可能會成為一個新用戶的進入壁壘。
(3)對評價他人的行為缺乏有效的激勵。
(4)不能對聲譽值進行分類或搜尋。
(4)采用的大多為單一簡單的聲譽得分值。
(5)大多數(shù)系統(tǒng)按照用戶的全部歷史紀錄計算聲譽。
為了解決這些問題,一方面,計算機領域的研究者們根據(jù)不同的應用環(huán)境提出了許多用于計算信任和聲譽的模型。比較典型的有基于相關性的聲譽計算公式,用Pearson相關系數(shù)計算用戶i和相關物品之間的相關性的值;基于文本的聲譽計算模型,引入權(quán)重矩陣與關聯(lián)性矩陣,以此來解決不同用戶對因子重視程度不同以及相關任務之間聲譽得分存在關聯(lián)的問題。
另一方面,關注聲譽激勵作用的管理學家們對影響聲譽、信任的因素做出了研究,李聰和梁昌勇[6]提出了從交易時間維度、交易金額維度、買家信譽度維度、欺詐懲罰維度、商盟維度、消費者保障服務維度這6個維度計算在線交易中的聲譽;蔣偉進等[7]從信譽反饋的評分、近期信任度、交易價值、時間權(quán)重、評分用戶的信任度、社區(qū)貢獻6方面構(gòu)建了動態(tài)信任計算模型,孫寶文等[8]和張娥等[9]提出了保證金制度使得交易不偏離誠信交易。如表3所示,時間、交易金額、懲罰與保險3個因子被采納的次數(shù)較多,本文將從這3個方面以及文本的情感傾向得分上構(gòu)建接包方聲譽評價模型。
表3 前人研究中的聲譽影響因子
本文在得到評論文本的情感傾向得分后,根據(jù)此得分和時間、金額、欺詐、聲譽得分這4個因素構(gòu)建最終的接包方聲譽得分。
(1)時間維度
在時間維度上,如果聲譽得分擁有無限制的記錄,那么對于新賣家來說是不友好的。因為一個新賣家可能并不了解網(wǎng)站的功能或者眾包的規(guī)章制度,這使得新用戶需要一段時期去適應,而初期出于無意而導致的違規(guī)行為被計入全局的聲譽中將會使該用戶的真實聲譽值受到影響。針對這種問題,有兩類處理方法,一種是截取近期的聲譽計算局部聲譽;另一種是將早期的聲譽值乘以一個系數(shù)做衰減。由于單純的截取為聲譽偽造提供了可能,本文采用第二種方式,在時間維度對聲譽值進行衰減。本文構(gòu)建了時間維度的聲譽因子如公式(1)所示,Rt(i)為第i筆交易的時間維因子,ti為得到第i筆交易的評價的日期,tpre為當前的日期,本文中設為2017年8月20日。之所以采用反余切公式是因為其具有遞減性和收斂性,并且時間間隔越短,函數(shù)值差異越小;間隔越大,函數(shù)值差異越大。由于反正切函數(shù)在(0,+∞)上的值域為,對其除以將R(i)值域變?yōu)?0,1〕,并乘上了1000以避免時間
t間隔過大導致最終所得數(shù)值過小。
(2)交易金額維度
交易金額能側(cè)面反映本次交易的重要性。交易金額越大,該次交易的評價越能反映出個體的真實行為,則該次交易產(chǎn)生的聲譽在最后的模型中所占的比例也應該越重。在評論文本分析過程中發(fā)現(xiàn)大部分無用評論的文本僅含“好評”2字,但其交易金額明顯高于店鋪的平均交易金額,這類評論首先就被剔除在情感得分中。同時,還應當保證商家難以通過小額交易的評論改變最后的聲譽得分。因此本文構(gòu)建的交易金額維度聲譽因子及情感傾向維度如公式(2)所示:
其中,Rm(i)為第i筆交易的聲譽維因子,Mi為第i筆交易的金額,Li是表示交易是否完成的狀態(tài)參數(shù),且有:
(3)欺詐懲罰維度
關于網(wǎng)絡誠信交易的研究表明,對于欺詐行為的懲罰是必須的,懲罰一般有兩種類型:一種是直接處以金錢的懲罰,本文將這部分歸結(jié)為平臺的保證金維度中去;另一種則是在聲譽評分中扣除一定的數(shù)值,并采取相應的措施進行制裁。表4總結(jié)了豬八戒網(wǎng)對欺詐行為的懲罰措施。
本文定義如下的欺詐懲罰因子:
將類別為差評的得分記Rb(i),欺詐懲罰因子記為Rd(i)。公式(3)中分母表示所獲得的所有差評總數(shù),分子表示所有差評中金額高于平均交易金額的差評總數(shù)。若不存在此類差評,則令Rd(i)=1。
(4)情感傾向維度
本文利用前文收集到的關鍵詞構(gòu)建了包括正面情感詞、負面情感詞、否定詞(如“不”)、最高級(如“完全”)、次高級(如“非?!保⑤^高級(如“十分”)、稍微級(如“有點”)、不足級(如“算是”)在內(nèi)的8項詞典,如表5所示,限于篇幅,只匯報8個情感詞典的前5個詞語。
表5 情感詞典中所含的部分詞匯
在此基礎上本文提出如下的算法計算各條評論文本的情感傾向:
第1步:讀取評論數(shù)據(jù),對評論進行分句。
第2步:逐條匹配每一條分句中所含有的情感詞,記錄評論是否含有正、負面情感詞,以布爾變量標注,每一條正面情感詞的基礎得分為1,負面情感詞基礎得分為-1。
第3步:逐個情感詞前匹配程度詞,若程度為最高級的在情感詞得分基礎上乘以4;次高級乘以3;較高級乘以2;稍微級乘以1/2;不足級乘以1/4。采用乘法而非加法更能區(qū)分情感傾向的程度。
第4步:在情感詞前查找否定詞,統(tǒng)計否定詞個數(shù),若否定詞總數(shù)為奇數(shù),表示該句為否定,在情感詞得分基礎上乘以-1,即該詞表示的是相反的含義,如“不錯”,含有1個否定詞“不”和負面情感詞“錯”,但表示的是情面情感。同理,若否定詞個數(shù)為偶數(shù),則在情感分值的基礎上乘以1。
第5步:計算完一條評論所有分句的情感值,若同時含有正、負面情感詞,則用正面情感詞得分減去負面情感詞得分,得出總分。
同理,在對接包方的全部評論進行計算后,也應對情感傾向進行加權(quán)處理,定義情感傾向維度聲譽因子如公式(4)所示:
其中,Fi為該名接包方每條評論的情感傾向得分。
將4個維度的因子進行集結(jié),最后得到的全局聲譽為:
由于豬八戒網(wǎng)并未提供每條評論的具體的得分,本文規(guī)定,每條好評的評論得分為5分,中評為3分,差評為1分。在每條評論在得分的基礎上乘以3個維度的聲譽得分因子,從而計算得出最終的接包方聲譽,下文將以9家店鋪的計算結(jié)果進行說明。
本文按照豬八戒網(wǎng)中好評率排名,在“l(fā)ogo設計”任務分類中挑選了好評率在67%~72%之間的9家店鋪,依據(jù)前文構(gòu)建的聲譽評價模型,對其店鋪評論文本進行分析。按照前文的規(guī)則計算得出了各自的聲譽得分,將按照好評率排名和按照本文規(guī)則排名的結(jié)果進行對比,如表6所示。
表6 采用本文規(guī)則的9家店鋪聲譽得分與排名結(jié)果
通過表6的結(jié)果可以發(fā)現(xiàn):
(1)最終聲譽得分及排名基本符合實際情況,“完成質(zhì)量、工作速度、服務態(tài)度”得分高的商家,最終得分相對也更高。但本文的聲譽得分區(qū)分度大,分數(shù)從0.03到3.71分布廣泛。例如I商家與B商家在得分上僅差1.4分左右,差別并不明顯,但最終聲譽得分相差近10倍,易于區(qū)分。
(2)文本信息能夠幫助分辨“刷好評”行為,并反映在最終得分上。由于網(wǎng)頁展示一般不顯示退款率,商家A雖然擁有很高的評論得分和好評率,但實際上通過有效評論數(shù)與總評論數(shù)的對比,可以推斷該商家存在“刷好評”的行為,故最后得分低于原排名第2的B商家。基于評論文本內(nèi)容中情感傾向的聲譽得分能夠有效發(fā)現(xiàn)其能力與好評率并不相符這一重要信息。
(3)本文得出的最終聲譽評分體現(xiàn)了評論的時效性。例如商家A的評論大多為2012年給出的,對現(xiàn)在的參考價值不大,事實上該店鋪近2年內(nèi)沒有任何交易。最終的聲譽得分考慮了時間維度的衰減,該店鋪的最終排名由第1降為了第3,且與前2名差距較大。
(4)最終的聲譽得分更能體現(xiàn)買家的真實感受。商家E擁有較高的評論得分(均高于4.8)及好評率(88%),然而,該商家的糾紛退款率高達15.6%,可見買家對于其提供的服務并不滿意。而文本的情感傾向比原有評分更清晰地反映了這一情況,其最終聲譽得分僅為0.15,遠低于原排名6、7的商家。
由此可見,本文構(gòu)建的這套基于情感傾向的眾包模式下接包方聲譽評價模型能幫助買家更加清晰、便捷地分辨接包方的能力與態(tài)度,具有一定的實際應用價值。
本文的研究數(shù)據(jù)主要來源于豬八戒網(wǎng)站中的發(fā)包方對接包方的評價,這種單方面的評價本身難免會存在失真的情況。這種失真,一方面是由于存在潛在的“刷單者”發(fā)表虛假的評論信息,另一方面是由于缺乏對評論者的激勵,導致現(xiàn)有眾包任務評論信息質(zhì)量不高。另外,即使不考慮評論數(shù)據(jù)中存在的噪聲,現(xiàn)有的評價機制規(guī)定,發(fā)包方必須在和接包方完成交易的基礎之上才能發(fā)表評論,這一要求使得在溝通過程中對接包方存在不滿,放棄進行交易的發(fā)包方無法發(fā)表基于自身經(jīng)歷的私有信息。這種現(xiàn)象導致了大多數(shù)發(fā)表評論的發(fā)包方都是對交易滿意的,他們也傾向于發(fā)表滿意的正面評論,導致了目前網(wǎng)站中接包方聲譽的普遍偏高,以至于現(xiàn)有聲譽機制的有效性不高。本文搜集整理的此類數(shù)據(jù)也面臨以上兩方面的問題,這是下一步研究需要解決的問題。