亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于LDA模型的在線評(píng)價(jià)物流主題挖掘及可視化分析

2023-02-21 07:35:12魏忠，樂(lè)玥

物流技術(shù) 2023年12期

魏忠，樂(lè) 玥

（上海海事大學(xué) 經(jīng)濟(jì)管理學(xué)院，上海 201306）

0 引言

物流業(yè)是推動(dòng)流通方式轉(zhuǎn)型、促進(jìn)消費(fèi)升級(jí)的現(xiàn)代化先導(dǎo)性產(chǎn)業(yè)[1]。物流作為商家與消費(fèi)者之間的第三方，在很大程度上影響了雙方的決策行動(dòng)。Yang[2]利用SEM-nl集成模型把握用戶物流模式的選擇行為規(guī)律以提升物流企業(yè)的競(jìng)爭(zhēng)力。Zhang，等[3]提出了基于熵值的物流企業(yè)績(jī)效評(píng)價(jià)模型。Li，等[4]提出了一種基于層次分析法與灰色理論的混合方法，建立了第三方物流的綜合服務(wù)能力評(píng)價(jià)體系，用于第三方物流的評(píng)估與選擇。

在電子商務(wù)中，在線評(píng)論在顧客的購(gòu)買(mǎi)決策中扮演著非常重要的作用[5]。此類(lèi)信息包括商品的描述、物流服務(wù)以及商家服務(wù)態(tài)度等。同時(shí)，在線評(píng)價(jià)作為實(shí)時(shí)的、不受時(shí)間、地點(diǎn)、空間限制的評(píng)價(jià)方式，能夠更加客觀有效地描述消費(fèi)者傾向以及市場(chǎng)需求實(shí)現(xiàn)的程度[6]。因此，對(duì)在線評(píng)價(jià)進(jìn)行文本內(nèi)容主題分類(lèi)可為商家、物流方以及消費(fèi)者提供所需要的決策信息。圖1展示了從某電商平臺(tái)上爬取到的食品類(lèi)產(chǎn)品的在線評(píng)論詞云展示，可以明顯看到消費(fèi)者在進(jìn)行在線評(píng)價(jià)時(shí)，運(yùn)用“口感”“味道”“好吃”等詞匯對(duì)于產(chǎn)品的味道進(jìn)行評(píng)價(jià)，在這種語(yǔ)言環(huán)境中，商家、物流方、消費(fèi)者都很難挖掘出更深層次的決策信息，因此，如何處理同義詞匯對(duì)于決策信息的影響是支持決策的一大難題。

圖1 食品類(lèi)在線評(píng)論詞云

利用文本分類(lèi)方法對(duì)在線評(píng)價(jià)進(jìn)行聚類(lèi)分析可以獲取改進(jìn)物流服務(wù)的決策信息。強(qiáng)大的文本分類(lèi)功能可以提供信息過(guò)濾、信息分類(lèi)、信息檢索、信息推薦等功能[7]。主題分類(lèi)模型是文本分類(lèi)的一個(gè)子方法，即從概念主題角度理解詞項(xiàng)語(yǔ)義，例如LSA模型、pLSA 模型和LDA 模型等[8-9]。Sutherland，等[10]為了驗(yàn)證顧客在選擇住宿場(chǎng)所時(shí)所關(guān)注的重點(diǎn)，利用潛在狄利克雷分配對(duì)消費(fèi)者在線評(píng)論進(jìn)行主題分析，提出消費(fèi)者在決定住宿場(chǎng)所時(shí)更關(guān)注住宿點(diǎn)的競(jìng)爭(zhēng)性與獨(dú)特點(diǎn)。許英姿，等[11]提出了一種基于加權(quán)補(bǔ)集的樸素貝葉斯分類(lèi)模型進(jìn)行物流主題分類(lèi)，解決了物流新聞?lì)悇e分布不均衡問(wèn)題。張文，等[12]基于LDA模型提出help-LDA模型，從電商評(píng)論中抽取消費(fèi)者評(píng)價(jià)，有效提高了在線評(píng)論有效性的預(yù)測(cè)性能。Chen，等[13]利用潛在的Dirichlet分配模型對(duì)在線用戶評(píng)論進(jìn)行分析，評(píng)估了生鮮產(chǎn)品的物流服務(wù)質(zhì)量。Wang，等[14]利用LDA模型對(duì)在線評(píng)論進(jìn)行了主題分析，通過(guò)主題差異性比較了兩種競(jìng)爭(zhēng)品的優(yōu)勢(shì)與劣勢(shì)。

目前，很多學(xué)者都運(yùn)用LDA模型對(duì)商品的在線評(píng)價(jià)進(jìn)行主題分析，并獲得了消費(fèi)者、商家或物流方所需要的決策支持信息。許多專家學(xué)者也提出了基于層次分析法、灰色理論等的物流企業(yè)選擇方法，但是忽略了真實(shí)存在的在線消費(fèi)者評(píng)價(jià)中存在的同義誤差。因此，本文對(duì)LDA主題模型進(jìn)行改進(jìn)，解決LDA模型本身無(wú)法處理同義詞的缺陷，挖掘消費(fèi)者對(duì)物流的在線評(píng)價(jià)，提供電商參與者所需要的決策信息。

1 研究方法與思路

基于LDA主題模型同義主題合并文本分類(lèi)算法的研究思路主要包含三部分，即：數(shù)據(jù)聚集與數(shù)據(jù)預(yù)處理、在線評(píng)論分詞與同義表達(dá)替換、LDA主題挖掘與可視化分析。具體如圖2所示。

圖2 研究思路

首先是數(shù)據(jù)聚集以及數(shù)據(jù)預(yù)處理，對(duì)某電商平臺(tái)各品類(lèi)商品的在線評(píng)價(jià)進(jìn)行文本收集，采用python爬蟲(chóng)以及數(shù)據(jù)清洗工具得到研究對(duì)象生成的語(yǔ)料庫(kù)。

分詞部分對(duì)LDA主題模型中分詞階段進(jìn)行優(yōu)化，首先對(duì)在線評(píng)論文本進(jìn)行TF_IDF（Term Frequency Inverse Document Frequency）分詞處理，并計(jì)算分詞在總在線評(píng)論文本集中的概率分布。在處理特征值時(shí)，利用標(biāo)準(zhǔn)庫(kù)或行業(yè)標(biāo)準(zhǔn)詞匯進(jìn)行同義替換，得到特征值的概率重新分布。

最后進(jìn)行LDA主題聚類(lèi)，將在線評(píng)論文本聚類(lèi)到每個(gè)主題下，并繪制多維資源圖譜進(jìn)行可視化展示。實(shí)證研究部分對(duì)研究對(duì)象的文本分類(lèi)結(jié)果分析，獲取同義詞替換后的在線評(píng)論文本主題及主題詞下的特征值概率分布情況，并運(yùn)用多維資源可視化將分類(lèi)結(jié)果展示出來(lái)，提供清晰的可視化決策支持信息。

2 基于LDA主題模型的同義主題合并文本分類(lèi)算法

2.1 同義主題合并文本分類(lèi)

同義主題合并在文本分類(lèi)中有著重要的作用，主要指的是在進(jìn)行文本分類(lèi)時(shí)，對(duì)提取后的文本主題進(jìn)行同義詞替換。同義詞替換來(lái)源是較為權(quán)威的組織機(jī)構(gòu)、行業(yè)先進(jìn)或行業(yè)中默認(rèn)的標(biāo)準(zhǔn)。由于個(gè)人在語(yǔ)言表達(dá)方面有自己習(xí)慣的語(yǔ)法、詞語(yǔ)，即使表達(dá)相同含義卻擁有語(yǔ)言的不同形式，導(dǎo)致組織與組織之間的知識(shí)交流存在障礙，影響了知識(shí)在組織與組織之間的流通速度。同義主題合并在文本分類(lèi)中可以消除大部分由于個(gè)人喜好導(dǎo)致的語(yǔ)義表達(dá)誤差，通過(guò)同義詞替換成行業(yè)標(biāo)準(zhǔn)詞匯，使知識(shí)文本轉(zhuǎn)化成為標(biāo)準(zhǔn)的、易于理解的文本內(nèi)容。

2.2 算法框架

運(yùn)用基于LDA主題模型的同義主題替換來(lái)解決企業(yè)中存在的知識(shí)文本共享程度低問(wèn)題。LDA主題模型以Dirichlet 分布為基礎(chǔ)[15]。運(yùn)用詞袋（bag of words）識(shí)別大規(guī)模文檔集中潛在的主題信息，但是詞袋方法忽略了詞與詞之間的順序關(guān)系，因此，本文算法用TF-IDF方式挖掘文本中的詞匯[16]。在LDA模型中，α、β、K是需要人為確定的參數(shù)，改進(jìn)的基于LDA主題模型同義替換算法在此基礎(chǔ)上需要對(duì)文本詞匯進(jìn)行同義代換。

步驟1 利用python3.9 爬取某電商平臺(tái)商品評(píng)價(jià)文本集D，包括六類(lèi)電商產(chǎn)品在線評(píng)價(jià)，并進(jìn)行基本的數(shù)據(jù)清洗工作，去除其中的重復(fù)數(shù)據(jù)、缺失數(shù)據(jù)以及無(wú)效評(píng)論數(shù)據(jù)。

步驟2 對(duì)在線評(píng)論文本集進(jìn)行數(shù)據(jù)預(yù)處理。利用停用詞對(duì)電商產(chǎn)品評(píng)價(jià)文本整體去噪以及分詞去噪，利用TF-IDF 方式（流程圖如圖3）挖掘文檔詞匯V，其中T 代表文檔集中的單詞總數(shù)，T～Poisson(ε)。對(duì)文檔詞匯V 進(jìn)行詞性標(biāo)注工作，識(shí)別其中的名詞（NN）、動(dòng)詞（VB）、形容詞（JJ）、副詞（RB）等，為后續(xù)同義替換打下基礎(chǔ)。TF-IDF模型作為分解文本的加權(quán)算法，可以得到詞頻與逆文檔頻率的組合，可用于信息檢索與文本挖掘[17]。可以用于評(píng)估某一字詞對(duì)于文本的重要程度，利用TF-IDF模型對(duì)資源中心文檔集D進(jìn)行分詞處理，獲得有關(guān)聯(lián)關(guān)系的文本分詞V，優(yōu)化LDA模型的輸出結(jié)果。

圖3 TF-IDF詞袋矢量生成流程

步驟3 同義詞匯替換。經(jīng)過(guò)TF-IDF分詞處理及詞性標(biāo)注得到TF-IDF詞袋矢量，利用物流評(píng)價(jià)中的相關(guān)語(yǔ)料建立的標(biāo)準(zhǔn)詞匯庫(kù)S 尋找分詞中的近義詞，并使用標(biāo)準(zhǔn)詞匯替代，形成替換后的分詞庫(kù)Vs。根據(jù)語(yǔ)料同義詞匯相似度計(jì)算大于0.600 00 可視作可進(jìn)行同義替換的詞匯，并進(jìn)行同義替換操作。

步驟4 進(jìn)行LDA 模型主題聚類(lèi)。LDA 主題模型的聚類(lèi)流程圖如圖4所示。首先需要確定一個(gè)θi，表示第i個(gè)文檔對(duì)應(yīng)主題的多項(xiàng)分布，服從Dirichlet分布，由θi隨機(jī)生成一個(gè)主題Z。設(shè)置一個(gè)β值使其隨機(jī)生成主題對(duì)應(yīng)詞語(yǔ)的多項(xiàng)分布φ，也服從Dirichlet分布。綜合主題Z與主題對(duì)應(yīng)詞語(yǔ)分布情況生成詞語(yǔ)w，循環(huán)以上步驟生成一個(gè)包含m個(gè)詞語(yǔ)的文檔。最后生成K個(gè)主題下的N篇文檔，與電商平臺(tái)在線評(píng)論文本進(jìn)行對(duì)比，從而生成聚類(lèi)結(jié)果。

圖4 LDA模型算法流程

K個(gè)主題是需要人為設(shè)定的參數(shù)之一，K的取值大小會(huì)影響LDA主題模型的分類(lèi)結(jié)果，因此，采用困惑度取值最佳主題數(shù)目K。

Vs為標(biāo)準(zhǔn)詞匯集合，D為文檔數(shù)，pwd是文檔生成概率，Dd,i是文檔d中的第i個(gè)詞，z為某個(gè)特定主題。

3 數(shù)據(jù)實(shí)證與算例分析

3.1 實(shí)證研究數(shù)據(jù)準(zhǔn)備及參數(shù)設(shè)置

利用python3.9爬取某電商平臺(tái)中各類(lèi)商品評(píng)價(jià)共70 000 條，去除重復(fù)數(shù)據(jù)以及默認(rèn)評(píng)價(jià)共15 438條，保留54 562條文本評(píng)價(jià)數(shù)據(jù)。根據(jù)式（1）、式（2）算出困惑度，當(dāng)困惑度最低時(shí)模型效果最好，實(shí)證選取K=6，α=0.1，β=0.01。

首先，對(duì)收集的文本評(píng)價(jià)數(shù)據(jù)進(jìn)行分詞處理，利用jieba分詞庫(kù)把一句話切分成若干個(gè)詞語(yǔ)，采用停用詞進(jìn)行文本整體去噪和分詞去噪，利用根據(jù)物流行業(yè)建立的詞向量庫(kù)對(duì)所得的TF-IDF詞袋矢量進(jìn)行同義詞標(biāo)準(zhǔn)替換，以“物流”為例，同義詞相似度表見(jiàn)表1。

表1 特征值相似度表

3.2 實(shí)驗(yàn)結(jié)果分析

LDA模型與經(jīng)過(guò)同義詞替換的LDA模型獲得的主題詞、主題詞下特征值以及特征值的概率分布見(jiàn)表2、表3?？梢钥吹絻蓚€(gè)模型對(duì)于主題特征值提取大部分都是相同的，經(jīng)過(guò)同義替換后的特征值概率值均大于傳統(tǒng)LDA模型，也可以看到傳統(tǒng)LDA模型中各個(gè)特征值的概率均小于10%，而同義詞替換后LDA模型中特征值概率有明顯上升。

表2 傳統(tǒng)LDA模型特征值分布

表3 改進(jìn)LDA模型特征值分布

根據(jù)改進(jìn)LDA 模型特征值及其概率分布可以看出，在進(jìn)行同義詞替換后，占比較大的特征值能夠在主題中體現(xiàn)的更加明顯，并且提升了特征值分布的概率分布，對(duì)于商家、物流方以及消費(fèi)者有更有價(jià)值的決策信息支持。Topic1 主題為生鮮產(chǎn)品，可以看出消費(fèi)者更注重生鮮產(chǎn)品的新鮮程度、物流快慢、包裝的完善程度，對(duì)于商家來(lái)說(shuō)，在保證自身產(chǎn)品質(zhì)量的前提下，選擇合適的物流方合作是提升銷(xiāo)量的關(guān)鍵點(diǎn)之一。Topic2 主題為大型家電，在消費(fèi)者的評(píng)價(jià)中突出了對(duì)家電的安裝與否、物流速度以及性價(jià)比高低的重視，與其他類(lèi)別的商品對(duì)物流的需求不同，家電產(chǎn)品要求商家選擇提供安裝服務(wù)的物流合作商。Topic3、Topic4、Topic5、Topic6 分別為個(gè)護(hù)類(lèi)、食品類(lèi)、日用百貨類(lèi)以及服務(wù)類(lèi)，對(duì)物流的要求并不高，更多關(guān)注產(chǎn)品自身的價(jià)值程度，因此，商家在選擇物流合作方時(shí)，可以將合作重點(diǎn)放在控制成本上，在滿足消費(fèi)者基礎(chǔ)物流需求前提下減少物流成本。

3.3 “主題-特征值”多維資源可視化分析

根據(jù)LDA 主題模型的文本聚類(lèi)結(jié)果可看出，電商平臺(tái)上五大類(lèi)消費(fèi)產(chǎn)品“生鮮”“電器”“食品”“個(gè)護(hù)”“服務(wù)”“日用”對(duì)于物流的需求都不相同。將電商平臺(tái)在線評(píng)論的聚類(lèi)結(jié)果運(yùn)用多維資源圖譜展示出來(lái)，如圖5 所示，距離主題點(diǎn)越遠(yuǎn)表示其在主題中的概率分布越小，相反則在主題中的概率分布越大。多維資源圖譜將概率分布的情況運(yùn)用可視化展示出來(lái)，越靠近主題點(diǎn)表示此類(lèi)特征對(duì)于產(chǎn)品來(lái)說(shuō)更受消費(fèi)者青睞，可視化為電商各角色提供了更加清晰的決策支持?jǐn)?shù)據(jù)。電商平臺(tái)商家可據(jù)此調(diào)整與物流商家的合作。

圖5 改進(jìn)LDA主題多維資源可視化

3.4 模型有效性評(píng)估

以查準(zhǔn)率P、查全率R來(lái)判斷基于LDA模型的同義合并文本分類(lèi)方法的有效性。在進(jìn)行文本分類(lèi)后，可對(duì)分類(lèi)結(jié)果進(jìn)行劃分，用TP 表示真實(shí)情況與預(yù)測(cè)情況都為正的情況稱為真正例；FN 表示真實(shí)情況為正，預(yù)測(cè)結(jié)果為反的案例，稱為假反例；FP表示真實(shí)情況為反例，預(yù)測(cè)結(jié)果為正例，稱為假正例；TN表示真實(shí)情況與預(yù)測(cè)結(jié)果均為反例的案例，稱為真反例，整體混淆矩陣見(jiàn)表4。

表4 混淆矩陣[18]

根據(jù)混淆矩陣得到查準(zhǔn)率以及查全率，查準(zhǔn)率與查全率之間存在一定的依賴關(guān)系，查全率高則查準(zhǔn)率下降，反之，查全率低則查準(zhǔn)率上升，因此，利用查準(zhǔn)率與查全率的調(diào)和平均值F 值進(jìn)行模型的有效性評(píng)估[19]，見(jiàn)表5。

表5 算法查準(zhǔn)率P、查全率R及F值對(duì)比

在算法性能對(duì)比上可看出，在進(jìn)行同義文本替換后，模型的查全率顯著提高，解決了某一部分在線評(píng)價(jià)文本由于同義表達(dá)過(guò)多導(dǎo)致的文本分類(lèi)無(wú)法聚類(lèi)問(wèn)題。根據(jù)F值可知改進(jìn)LDA模型在有效性上超越了傳統(tǒng)的LDA模型，因此，本文提出的物流在線評(píng)價(jià)主題挖掘的決策信息在一定程度上為商家、消費(fèi)者以及物流企業(yè)提供了更為有效的決策支持信息。

4 總結(jié)與展望

物流服務(wù)作為電子商務(wù)平臺(tái)上連接商家與消費(fèi)者的中間商，了解物流服務(wù)在各個(gè)產(chǎn)品銷(xiāo)售中的重要性有助于商家為消費(fèi)者提供更好的服務(wù)。本文利用改進(jìn)的LDA模型對(duì)消費(fèi)者的消費(fèi)評(píng)價(jià)進(jìn)行主題分析，改進(jìn)LDA模型原本過(guò)于分散的特征值，將同義的特征詞進(jìn)行合并處理，并且用可視化的多維資源地圖展示其聚類(lèi)結(jié)果，為電子商務(wù)各級(jí)用戶提供了更加明確的聚類(lèi)決策信息。商家可依據(jù)商品評(píng)論聚類(lèi)結(jié)果選擇合適的物流合作商來(lái)提高商品交易量，物流方也可以根據(jù)消費(fèi)者對(duì)于物流的需求改進(jìn)服務(wù)。

本文討論了同義詞、近義詞在商品評(píng)論中對(duì)聚類(lèi)結(jié)果的影響，在用標(biāo)準(zhǔn)詞匯替換同義詞、近義詞后聚類(lèi)成果更加集中，相比之下，未進(jìn)行同義詞、近義詞替換的聚類(lèi)結(jié)果特征值過(guò)于分散平均，決策信息不明顯。實(shí)證研究發(fā)現(xiàn)，生鮮類(lèi)、食品類(lèi)、電器類(lèi)對(duì)于物流的要求較高，往往需要快速的物流速度以及完善的物流服務(wù)，而個(gè)護(hù)類(lèi)、食品類(lèi)、日用百貨類(lèi)以及服務(wù)類(lèi)對(duì)物流的要求并不高，更多關(guān)注產(chǎn)品自身的價(jià)值程度。未來(lái)研究希望在同義詞替換聚類(lèi)的基礎(chǔ)上，將商品評(píng)論中的情感類(lèi)詞匯納入考慮范圍，探討在線評(píng)論的情感偏向?qū)ξ锪餍袠I(yè)決策的影響。