魏 忠,樂(lè) 玥
(上海海事大學(xué) 經(jīng)濟(jì)管理學(xué)院,上海 201306)
物流業(yè)是推動(dòng)流通方式轉(zhuǎn)型、促進(jìn)消費(fèi)升級(jí)的現(xiàn)代化先導(dǎo)性產(chǎn)業(yè)[1]。物流作為商家與消費(fèi)者之間的第三方,在很大程度上影響了雙方的決策行動(dòng)。Yang[2]利用SEM-nl集成模型把握用戶物流模式的選擇行為規(guī)律以提升物流企業(yè)的競(jìng)爭(zhēng)力。Zhang,等[3]提出了基于熵值的物流企業(yè)績(jī)效評(píng)價(jià)模型。Li,等[4]提出了一種基于層次分析法與灰色理論的混合方法,建立了第三方物流的綜合服務(wù)能力評(píng)價(jià)體系,用于第三方物流的評(píng)估與選擇。
在電子商務(wù)中,在線評(píng)論在顧客的購(gòu)買(mǎi)決策中扮演著非常重要的作用[5]。此類(lèi)信息包括商品的描述、物流服務(wù)以及商家服務(wù)態(tài)度等。同時(shí),在線評(píng)價(jià)作為實(shí)時(shí)的、不受時(shí)間、地點(diǎn)、空間限制的評(píng)價(jià)方式,能夠更加客觀有效地描述消費(fèi)者傾向以及市場(chǎng)需求實(shí)現(xiàn)的程度[6]。因此,對(duì)在線評(píng)價(jià)進(jìn)行文本內(nèi)容主題分類(lèi)可為商家、物流方以及消費(fèi)者提供所需要的決策信息。圖1展示了從某電商平臺(tái)上爬取到的食品類(lèi)產(chǎn)品的在線評(píng)論詞云展示,可以明顯看到消費(fèi)者在進(jìn)行在線評(píng)價(jià)時(shí),運(yùn)用“口感”“味道”“好吃”等詞匯對(duì)于產(chǎn)品的味道進(jìn)行評(píng)價(jià),在這種語(yǔ)言環(huán)境中,商家、物流方、消費(fèi)者都很難挖掘出更深層次的決策信息,因此,如何處理同義詞匯對(duì)于決策信息的影響是支持決策的一大難題。
圖1 食品類(lèi)在線評(píng)論詞云
利用文本分類(lèi)方法對(duì)在線評(píng)價(jià)進(jìn)行聚類(lèi)分析可以獲取改進(jìn)物流服務(wù)的決策信息。強(qiáng)大的文本分類(lèi)功能可以提供信息過(guò)濾、信息分類(lèi)、信息檢索、信息推薦等功能[7]。主題分類(lèi)模型是文本分類(lèi)的一個(gè)子方法,即從概念主題角度理解詞項(xiàng)語(yǔ)義,例如LSA模型、pLSA 模型和LDA 模型等[8-9]。Sutherland,等[10]為了驗(yàn)證顧客在選擇住宿場(chǎng)所時(shí)所關(guān)注的重點(diǎn),利用潛在狄利克雷分配對(duì)消費(fèi)者在線評(píng)論進(jìn)行主題分析,提出消費(fèi)者在決定住宿場(chǎng)所時(shí)更關(guān)注住宿點(diǎn)的競(jìng)爭(zhēng)性與獨(dú)特點(diǎn)。許英姿,等[11]提出了一種基于加權(quán)補(bǔ)集的樸素貝葉斯分類(lèi)模型進(jìn)行物流主題分類(lèi),解決了物流新聞?lì)悇e分布不均衡問(wèn)題。張文,等[12]基于LDA模型提出help-LDA模型,從電商評(píng)論中抽取消費(fèi)者評(píng)價(jià),有效提高了在線評(píng)論有效性的預(yù)測(cè)性能。Chen,等[13]利用潛在的Dirichlet分配模型對(duì)在線用戶評(píng)論進(jìn)行分析,評(píng)估了生鮮產(chǎn)品的物流服務(wù)質(zhì)量。Wang,等[14]利用LDA模型對(duì)在線評(píng)論進(jìn)行了主題分析,通過(guò)主題差異性比較了兩種競(jìng)爭(zhēng)品的優(yōu)勢(shì)與劣勢(shì)。
目前,很多學(xué)者都運(yùn)用LDA模型對(duì)商品的在線評(píng)價(jià)進(jìn)行主題分析,并獲得了消費(fèi)者、商家或物流方所需要的決策支持信息。許多專家學(xué)者也提出了基于層次分析法、灰色理論等的物流企業(yè)選擇方法,但是忽略了真實(shí)存在的在線消費(fèi)者評(píng)價(jià)中存在的同義誤差。因此,本文對(duì)LDA主題模型進(jìn)行改進(jìn),解決LDA模型本身無(wú)法處理同義詞的缺陷,挖掘消費(fèi)者對(duì)物流的在線評(píng)價(jià),提供電商參與者所需要的決策信息。
基于LDA主題模型同義主題合并文本分類(lèi)算法的研究思路主要包含三部分,即:數(shù)據(jù)聚集與數(shù)據(jù)預(yù)處理、在線評(píng)論分詞與同義表達(dá)替換、LDA主題挖掘與可視化分析。具體如圖2所示。
圖2 研究思路
首先是數(shù)據(jù)聚集以及數(shù)據(jù)預(yù)處理,對(duì)某電商平臺(tái)各品類(lèi)商品的在線評(píng)價(jià)進(jìn)行文本收集,采用python爬蟲(chóng)以及數(shù)據(jù)清洗工具得到研究對(duì)象生成的語(yǔ)料庫(kù)。
分詞部分對(duì)LDA主題模型中分詞階段進(jìn)行優(yōu)化,首先對(duì)在線評(píng)論文本進(jìn)行TF_IDF(Term Frequency Inverse Document Frequency)分詞處理,并計(jì)算分詞在總在線評(píng)論文本集中的概率分布。在處理特征值時(shí),利用標(biāo)準(zhǔn)庫(kù)或行業(yè)標(biāo)準(zhǔn)詞匯進(jìn)行同義替換,得到特征值的概率重新分布。
最后進(jìn)行LDA主題聚類(lèi),將在線評(píng)論文本聚類(lèi)到每個(gè)主題下,并繪制多維資源圖譜進(jìn)行可視化展示。實(shí)證研究部分對(duì)研究對(duì)象的文本分類(lèi)結(jié)果分析,獲取同義詞替換后的在線評(píng)論文本主題及主題詞下的特征值概率分布情況,并運(yùn)用多維資源可視化將分類(lèi)結(jié)果展示出來(lái),提供清晰的可視化決策支持信息。
同義主題合并在文本分類(lèi)中有著重要的作用,主要指的是在進(jìn)行文本分類(lèi)時(shí),對(duì)提取后的文本主題進(jìn)行同義詞替換。同義詞替換來(lái)源是較為權(quán)威的組織機(jī)構(gòu)、行業(yè)先進(jìn)或行業(yè)中默認(rèn)的標(biāo)準(zhǔn)。由于個(gè)人在語(yǔ)言表達(dá)方面有自己習(xí)慣的語(yǔ)法、詞語(yǔ),即使表達(dá)相同含義卻擁有語(yǔ)言的不同形式,導(dǎo)致組織與組織之間的知識(shí)交流存在障礙,影響了知識(shí)在組織與組織之間的流通速度。同義主題合并在文本分類(lèi)中可以消除大部分由于個(gè)人喜好導(dǎo)致的語(yǔ)義表達(dá)誤差,通過(guò)同義詞替換成行業(yè)標(biāo)準(zhǔn)詞匯,使知識(shí)文本轉(zhuǎn)化成為標(biāo)準(zhǔn)的、易于理解的文本內(nèi)容。
運(yùn)用基于LDA主題模型的同義主題替換來(lái)解決企業(yè)中存在的知識(shí)文本共享程度低問(wèn)題。LDA主題模型以Dirichlet 分布為基礎(chǔ)[15]。運(yùn)用詞袋(bag of words)識(shí)別大規(guī)模文檔集中潛在的主題信息,但是詞袋方法忽略了詞與詞之間的順序關(guān)系,因此,本文算法用TF-IDF方式挖掘文本中的詞匯[16]。在LDA模型中,α、β、K是需要人為確定的參數(shù),改進(jìn)的基于LDA主題模型同義替換算法在此基礎(chǔ)上需要對(duì)文本詞匯進(jìn)行同義代換。
步驟1 利用python3.9 爬取某電商平臺(tái)商品評(píng)價(jià)文本集D,包括六類(lèi)電商產(chǎn)品在線評(píng)價(jià),并進(jìn)行基本的數(shù)據(jù)清洗工作,去除其中的重復(fù)數(shù)據(jù)、缺失數(shù)據(jù)以及無(wú)效評(píng)論數(shù)據(jù)。
步驟2 對(duì)在線評(píng)論文本集進(jìn)行數(shù)據(jù)預(yù)處理。利用停用詞對(duì)電商產(chǎn)品評(píng)價(jià)文本整體去噪以及分詞去噪,利用TF-IDF 方式(流程圖如圖3)挖掘文檔詞匯V,其中T 代表文檔集中的單詞總數(shù),T~Poisson(ε)。對(duì)文檔詞匯V 進(jìn)行詞性標(biāo)注工作,識(shí)別其中的名詞(NN)、動(dòng)詞(VB)、形容詞(JJ)、副詞(RB)等,為后續(xù)同義替換打下基礎(chǔ)。TF-IDF模型作為分解文本的加權(quán)算法,可以得到詞頻與逆文檔頻率的組合,可用于信息檢索與文本挖掘[17]。可以用于評(píng)估某一字詞對(duì)于文本的重要程度,利用TF-IDF模型對(duì)資源中心文檔集D進(jìn)行分詞處理,獲得有關(guān)聯(lián)關(guān)系的文本分詞V,優(yōu)化LDA模型的輸出結(jié)果。
圖3 TF-IDF詞袋矢量生成流程
步驟3 同義詞匯替換。經(jīng)過(guò)TF-IDF分詞處理及詞性標(biāo)注得到TF-IDF詞袋矢量,利用物流評(píng)價(jià)中的相關(guān)語(yǔ)料建立的標(biāo)準(zhǔn)詞匯庫(kù)S 尋找分詞中的近義詞,并使用標(biāo)準(zhǔn)詞匯替代,形成替換后的分詞庫(kù)Vs。根據(jù)語(yǔ)料同義詞匯相似度計(jì)算大于0.600 00 可視作可進(jìn)行同義替換的詞匯,并進(jìn)行同義替換操作。
步驟4 進(jìn)行LDA 模型主題聚類(lèi)。LDA 主題模型的聚類(lèi)流程圖如圖4所示。首先需要確定一個(gè)θi,表示第i個(gè)文檔對(duì)應(yīng)主題的多項(xiàng)分布,服從Dirichlet分布,由θi隨機(jī)生成一個(gè)主題Z。設(shè)置一個(gè)β值使其隨機(jī)生成主題對(duì)應(yīng)詞語(yǔ)的多項(xiàng)分布φ,也服從Dirichlet分布。綜合主題Z與主題對(duì)應(yīng)詞語(yǔ)分布情況生成詞語(yǔ)w,循環(huán)以上步驟生成一個(gè)包含m個(gè)詞語(yǔ)的文檔。最后生成K個(gè)主題下的N篇文檔,與電商平臺(tái)在線評(píng)論文本進(jìn)行對(duì)比,從而生成聚類(lèi)結(jié)果。
圖4 LDA模型算法流程
K個(gè)主題是需要人為設(shè)定的參數(shù)之一,K的取值大小會(huì)影響LDA主題模型的分類(lèi)結(jié)果,因此,采用困惑度取值最佳主題數(shù)目K。
Vs為標(biāo)準(zhǔn)詞匯集合,D為文檔數(shù),pwd是文檔生成概率,Dd,i是文檔d中的第i個(gè)詞,z為某個(gè)特定主題。
利用python3.9爬取某電商平臺(tái)中各類(lèi)商品評(píng)價(jià)共70 000 條,去除重復(fù)數(shù)據(jù)以及默認(rèn)評(píng)價(jià)共15 438條,保留54 562條文本評(píng)價(jià)數(shù)據(jù)。根據(jù)式(1)、式(2)算出困惑度,當(dāng)困惑度最低時(shí)模型效果最好,實(shí)證選取K=6,α=0.1,β=0.01。
首先,對(duì)收集的文本評(píng)價(jià)數(shù)據(jù)進(jìn)行分詞處理,利用jieba分詞庫(kù)把一句話切分成若干個(gè)詞語(yǔ),采用停用詞進(jìn)行文本整體去噪和分詞去噪,利用根據(jù)物流行業(yè)建立的詞向量庫(kù)對(duì)所得的TF-IDF詞袋矢量進(jìn)行同義詞標(biāo)準(zhǔn)替換,以“物流”為例,同義詞相似度表見(jiàn)表1。
表1 特征值相似度表
LDA模型與經(jīng)過(guò)同義詞替換的LDA模型獲得的主題詞、主題詞下特征值以及特征值的概率分布見(jiàn)表2、表3??梢钥吹絻蓚€(gè)模型對(duì)于主題特征值提取大部分都是相同的,經(jīng)過(guò)同義替換后的特征值概率值均大于傳統(tǒng)LDA模型,也可以看到傳統(tǒng)LDA模型中各個(gè)特征值的概率均小于10%,而同義詞替換后LDA模型中特征值概率有明顯上升。
表2 傳統(tǒng)LDA模型特征值分布
表3 改進(jìn)LDA模型特征值分布
根據(jù)改進(jìn)LDA 模型特征值及其概率分布可以看出,在進(jìn)行同義詞替換后,占比較大的特征值能夠在主題中體現(xiàn)的更加明顯,并且提升了特征值分布的概率分布,對(duì)于商家、物流方以及消費(fèi)者有更有價(jià)值的決策信息支持。Topic1 主題為生鮮產(chǎn)品,可以看出消費(fèi)者更注重生鮮產(chǎn)品的新鮮程度、物流快慢、包裝的完善程度,對(duì)于商家來(lái)說(shuō),在保證自身產(chǎn)品質(zhì)量的前提下,選擇合適的物流方合作是提升銷(xiāo)量的關(guān)鍵點(diǎn)之一。Topic2 主題為大型家電,在消費(fèi)者的評(píng)價(jià)中突出了對(duì)家電的安裝與否、物流速度以及性價(jià)比高低的重視,與其他類(lèi)別的商品對(duì)物流的需求不同,家電產(chǎn)品要求商家選擇提供安裝服務(wù)的物流合作商。Topic3、Topic4、Topic5、Topic6 分別為個(gè)護(hù)類(lèi)、食品類(lèi)、日用百貨類(lèi)以及服務(wù)類(lèi),對(duì)物流的要求并不高,更多關(guān)注產(chǎn)品自身的價(jià)值程度,因此,商家在選擇物流合作方時(shí),可以將合作重點(diǎn)放在控制成本上,在滿足消費(fèi)者基礎(chǔ)物流需求前提下減少物流成本。
根據(jù)LDA 主題模型的文本聚類(lèi)結(jié)果可看出,電商平臺(tái)上五大類(lèi)消費(fèi)產(chǎn)品“生鮮”“電器”“食品”“個(gè)護(hù)”“服務(wù)”“日用”對(duì)于物流的需求都不相同。將電商平臺(tái)在線評(píng)論的聚類(lèi)結(jié)果運(yùn)用多維資源圖譜展示出來(lái),如圖5 所示,距離主題點(diǎn)越遠(yuǎn)表示其在主題中的概率分布越小,相反則在主題中的概率分布越大。多維資源圖譜將概率分布的情況運(yùn)用可視化展示出來(lái),越靠近主題點(diǎn)表示此類(lèi)特征對(duì)于產(chǎn)品來(lái)說(shuō)更受消費(fèi)者青睞,可視化為電商各角色提供了更加清晰的決策支持?jǐn)?shù)據(jù)。電商平臺(tái)商家可據(jù)此調(diào)整與物流商家的合作。
圖5 改進(jìn)LDA主題多維資源可視化
以查準(zhǔn)率P、查全率R來(lái)判斷基于LDA模型的同義合并文本分類(lèi)方法的有效性。在進(jìn)行文本分類(lèi)后,可對(duì)分類(lèi)結(jié)果進(jìn)行劃分,用TP 表示真實(shí)情況與預(yù)測(cè)情況都為正的情況稱為真正例;FN 表示真實(shí)情況為正,預(yù)測(cè)結(jié)果為反的案例,稱為假反例;FP表示真實(shí)情況為反例,預(yù)測(cè)結(jié)果為正例,稱為假正例;TN表示真實(shí)情況與預(yù)測(cè)結(jié)果均為反例的案例,稱為真反例,整體混淆矩陣見(jiàn)表4。
表4 混淆矩陣[18]
根據(jù)混淆矩陣得到查準(zhǔn)率以及查全率,查準(zhǔn)率與查全率之間存在一定的依賴關(guān)系,查全率高則查準(zhǔn)率下降,反之,查全率低則查準(zhǔn)率上升,因此,利用查準(zhǔn)率與查全率的調(diào)和平均值F 值進(jìn)行模型的有效性評(píng)估[19],見(jiàn)表5。
表5 算法查準(zhǔn)率P、查全率R及F值對(duì)比
在算法性能對(duì)比上可看出,在進(jìn)行同義文本替換后,模型的查全率顯著提高,解決了某一部分在線評(píng)價(jià)文本由于同義表達(dá)過(guò)多導(dǎo)致的文本分類(lèi)無(wú)法聚類(lèi)問(wèn)題。根據(jù)F值可知改進(jìn)LDA模型在有效性上超越了傳統(tǒng)的LDA模型,因此,本文提出的物流在線評(píng)價(jià)主題挖掘的決策信息在一定程度上為商家、消費(fèi)者以及物流企業(yè)提供了更為有效的決策支持信息。
物流服務(wù)作為電子商務(wù)平臺(tái)上連接商家與消費(fèi)者的中間商,了解物流服務(wù)在各個(gè)產(chǎn)品銷(xiāo)售中的重要性有助于商家為消費(fèi)者提供更好的服務(wù)。本文利用改進(jìn)的LDA模型對(duì)消費(fèi)者的消費(fèi)評(píng)價(jià)進(jìn)行主題分析,改進(jìn)LDA模型原本過(guò)于分散的特征值,將同義的特征詞進(jìn)行合并處理,并且用可視化的多維資源地圖展示其聚類(lèi)結(jié)果,為電子商務(wù)各級(jí)用戶提供了更加明確的聚類(lèi)決策信息。商家可依據(jù)商品評(píng)論聚類(lèi)結(jié)果選擇合適的物流合作商來(lái)提高商品交易量,物流方也可以根據(jù)消費(fèi)者對(duì)于物流的需求改進(jìn)服務(wù)。
本文討論了同義詞、近義詞在商品評(píng)論中對(duì)聚類(lèi)結(jié)果的影響,在用標(biāo)準(zhǔn)詞匯替換同義詞、近義詞后聚類(lèi)成果更加集中,相比之下,未進(jìn)行同義詞、近義詞替換的聚類(lèi)結(jié)果特征值過(guò)于分散平均,決策信息不明顯。實(shí)證研究發(fā)現(xiàn),生鮮類(lèi)、食品類(lèi)、電器類(lèi)對(duì)于物流的要求較高,往往需要快速的物流速度以及完善的物流服務(wù),而個(gè)護(hù)類(lèi)、食品類(lèi)、日用百貨類(lèi)以及服務(wù)類(lèi)對(duì)物流的要求并不高,更多關(guān)注產(chǎn)品自身的價(jià)值程度。未來(lái)研究希望在同義詞替換聚類(lèi)的基礎(chǔ)上,將商品評(píng)論中的情感類(lèi)詞匯納入考慮范圍,探討在線評(píng)論的情感偏向?qū)ξ锪餍袠I(yè)決策的影響。