亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA模型的在線評(píng)價(jià)物流主題挖掘及可視化分析

        2023-02-21 07:35:12忠,樂(lè)
        物流技術(shù) 2023年12期
        關(guān)鍵詞:物流文本評(píng)價(jià)

        魏 忠,樂(lè) 玥

        (上海海事大學(xué) 經(jīng)濟(jì)管理學(xué)院,上海 201306)

        0 引言

        物流業(yè)是推動(dòng)流通方式轉(zhuǎn)型、促進(jìn)消費(fèi)升級(jí)的現(xiàn)代化先導(dǎo)性產(chǎn)業(yè)[1]。物流作為商家與消費(fèi)者之間的第三方,在很大程度上影響了雙方的決策行動(dòng)。Yang[2]利用SEM-nl集成模型把握用戶物流模式的選擇行為規(guī)律以提升物流企業(yè)的競(jìng)爭(zhēng)力。Zhang,等[3]提出了基于熵值的物流企業(yè)績(jī)效評(píng)價(jià)模型。Li,等[4]提出了一種基于層次分析法與灰色理論的混合方法,建立了第三方物流的綜合服務(wù)能力評(píng)價(jià)體系,用于第三方物流的評(píng)估與選擇。

        在電子商務(wù)中,在線評(píng)論在顧客的購(gòu)買(mǎi)決策中扮演著非常重要的作用[5]。此類(lèi)信息包括商品的描述、物流服務(wù)以及商家服務(wù)態(tài)度等。同時(shí),在線評(píng)價(jià)作為實(shí)時(shí)的、不受時(shí)間、地點(diǎn)、空間限制的評(píng)價(jià)方式,能夠更加客觀有效地描述消費(fèi)者傾向以及市場(chǎng)需求實(shí)現(xiàn)的程度[6]。因此,對(duì)在線評(píng)價(jià)進(jìn)行文本內(nèi)容主題分類(lèi)可為商家、物流方以及消費(fèi)者提供所需要的決策信息。圖1展示了從某電商平臺(tái)上爬取到的食品類(lèi)產(chǎn)品的在線評(píng)論詞云展示,可以明顯看到消費(fèi)者在進(jìn)行在線評(píng)價(jià)時(shí),運(yùn)用“口感”“味道”“好吃”等詞匯對(duì)于產(chǎn)品的味道進(jìn)行評(píng)價(jià),在這種語(yǔ)言環(huán)境中,商家、物流方、消費(fèi)者都很難挖掘出更深層次的決策信息,因此,如何處理同義詞匯對(duì)于決策信息的影響是支持決策的一大難題。

        圖1 食品類(lèi)在線評(píng)論詞云

        利用文本分類(lèi)方法對(duì)在線評(píng)價(jià)進(jìn)行聚類(lèi)分析可以獲取改進(jìn)物流服務(wù)的決策信息。強(qiáng)大的文本分類(lèi)功能可以提供信息過(guò)濾、信息分類(lèi)、信息檢索、信息推薦等功能[7]。主題分類(lèi)模型是文本分類(lèi)的一個(gè)子方法,即從概念主題角度理解詞項(xiàng)語(yǔ)義,例如LSA模型、pLSA 模型和LDA 模型等[8-9]。Sutherland,等[10]為了驗(yàn)證顧客在選擇住宿場(chǎng)所時(shí)所關(guān)注的重點(diǎn),利用潛在狄利克雷分配對(duì)消費(fèi)者在線評(píng)論進(jìn)行主題分析,提出消費(fèi)者在決定住宿場(chǎng)所時(shí)更關(guān)注住宿點(diǎn)的競(jìng)爭(zhēng)性與獨(dú)特點(diǎn)。許英姿,等[11]提出了一種基于加權(quán)補(bǔ)集的樸素貝葉斯分類(lèi)模型進(jìn)行物流主題分類(lèi),解決了物流新聞?lì)悇e分布不均衡問(wèn)題。張文,等[12]基于LDA模型提出help-LDA模型,從電商評(píng)論中抽取消費(fèi)者評(píng)價(jià),有效提高了在線評(píng)論有效性的預(yù)測(cè)性能。Chen,等[13]利用潛在的Dirichlet分配模型對(duì)在線用戶評(píng)論進(jìn)行分析,評(píng)估了生鮮產(chǎn)品的物流服務(wù)質(zhì)量。Wang,等[14]利用LDA模型對(duì)在線評(píng)論進(jìn)行了主題分析,通過(guò)主題差異性比較了兩種競(jìng)爭(zhēng)品的優(yōu)勢(shì)與劣勢(shì)。

        目前,很多學(xué)者都運(yùn)用LDA模型對(duì)商品的在線評(píng)價(jià)進(jìn)行主題分析,并獲得了消費(fèi)者、商家或物流方所需要的決策支持信息。許多專家學(xué)者也提出了基于層次分析法、灰色理論等的物流企業(yè)選擇方法,但是忽略了真實(shí)存在的在線消費(fèi)者評(píng)價(jià)中存在的同義誤差。因此,本文對(duì)LDA主題模型進(jìn)行改進(jìn),解決LDA模型本身無(wú)法處理同義詞的缺陷,挖掘消費(fèi)者對(duì)物流的在線評(píng)價(jià),提供電商參與者所需要的決策信息。

        1 研究方法與思路

        基于LDA主題模型同義主題合并文本分類(lèi)算法的研究思路主要包含三部分,即:數(shù)據(jù)聚集與數(shù)據(jù)預(yù)處理、在線評(píng)論分詞與同義表達(dá)替換、LDA主題挖掘與可視化分析。具體如圖2所示。

        圖2 研究思路

        首先是數(shù)據(jù)聚集以及數(shù)據(jù)預(yù)處理,對(duì)某電商平臺(tái)各品類(lèi)商品的在線評(píng)價(jià)進(jìn)行文本收集,采用python爬蟲(chóng)以及數(shù)據(jù)清洗工具得到研究對(duì)象生成的語(yǔ)料庫(kù)。

        分詞部分對(duì)LDA主題模型中分詞階段進(jìn)行優(yōu)化,首先對(duì)在線評(píng)論文本進(jìn)行TF_IDF(Term Frequency Inverse Document Frequency)分詞處理,并計(jì)算分詞在總在線評(píng)論文本集中的概率分布。在處理特征值時(shí),利用標(biāo)準(zhǔn)庫(kù)或行業(yè)標(biāo)準(zhǔn)詞匯進(jìn)行同義替換,得到特征值的概率重新分布。

        最后進(jìn)行LDA主題聚類(lèi),將在線評(píng)論文本聚類(lèi)到每個(gè)主題下,并繪制多維資源圖譜進(jìn)行可視化展示。實(shí)證研究部分對(duì)研究對(duì)象的文本分類(lèi)結(jié)果分析,獲取同義詞替換后的在線評(píng)論文本主題及主題詞下的特征值概率分布情況,并運(yùn)用多維資源可視化將分類(lèi)結(jié)果展示出來(lái),提供清晰的可視化決策支持信息。

        2 基于LDA主題模型的同義主題合并文本分類(lèi)算法

        2.1 同義主題合并文本分類(lèi)

        同義主題合并在文本分類(lèi)中有著重要的作用,主要指的是在進(jìn)行文本分類(lèi)時(shí),對(duì)提取后的文本主題進(jìn)行同義詞替換。同義詞替換來(lái)源是較為權(quán)威的組織機(jī)構(gòu)、行業(yè)先進(jìn)或行業(yè)中默認(rèn)的標(biāo)準(zhǔn)。由于個(gè)人在語(yǔ)言表達(dá)方面有自己習(xí)慣的語(yǔ)法、詞語(yǔ),即使表達(dá)相同含義卻擁有語(yǔ)言的不同形式,導(dǎo)致組織與組織之間的知識(shí)交流存在障礙,影響了知識(shí)在組織與組織之間的流通速度。同義主題合并在文本分類(lèi)中可以消除大部分由于個(gè)人喜好導(dǎo)致的語(yǔ)義表達(dá)誤差,通過(guò)同義詞替換成行業(yè)標(biāo)準(zhǔn)詞匯,使知識(shí)文本轉(zhuǎn)化成為標(biāo)準(zhǔn)的、易于理解的文本內(nèi)容。

        2.2 算法框架

        運(yùn)用基于LDA主題模型的同義主題替換來(lái)解決企業(yè)中存在的知識(shí)文本共享程度低問(wèn)題。LDA主題模型以Dirichlet 分布為基礎(chǔ)[15]。運(yùn)用詞袋(bag of words)識(shí)別大規(guī)模文檔集中潛在的主題信息,但是詞袋方法忽略了詞與詞之間的順序關(guān)系,因此,本文算法用TF-IDF方式挖掘文本中的詞匯[16]。在LDA模型中,α、β、K是需要人為確定的參數(shù),改進(jìn)的基于LDA主題模型同義替換算法在此基礎(chǔ)上需要對(duì)文本詞匯進(jìn)行同義代換。

        步驟1 利用python3.9 爬取某電商平臺(tái)商品評(píng)價(jià)文本集D,包括六類(lèi)電商產(chǎn)品在線評(píng)價(jià),并進(jìn)行基本的數(shù)據(jù)清洗工作,去除其中的重復(fù)數(shù)據(jù)、缺失數(shù)據(jù)以及無(wú)效評(píng)論數(shù)據(jù)。

        步驟2 對(duì)在線評(píng)論文本集進(jìn)行數(shù)據(jù)預(yù)處理。利用停用詞對(duì)電商產(chǎn)品評(píng)價(jià)文本整體去噪以及分詞去噪,利用TF-IDF 方式(流程圖如圖3)挖掘文檔詞匯V,其中T 代表文檔集中的單詞總數(shù),T~Poisson(ε)。對(duì)文檔詞匯V 進(jìn)行詞性標(biāo)注工作,識(shí)別其中的名詞(NN)、動(dòng)詞(VB)、形容詞(JJ)、副詞(RB)等,為后續(xù)同義替換打下基礎(chǔ)。TF-IDF模型作為分解文本的加權(quán)算法,可以得到詞頻與逆文檔頻率的組合,可用于信息檢索與文本挖掘[17]。可以用于評(píng)估某一字詞對(duì)于文本的重要程度,利用TF-IDF模型對(duì)資源中心文檔集D進(jìn)行分詞處理,獲得有關(guān)聯(lián)關(guān)系的文本分詞V,優(yōu)化LDA模型的輸出結(jié)果。

        圖3 TF-IDF詞袋矢量生成流程

        步驟3 同義詞匯替換。經(jīng)過(guò)TF-IDF分詞處理及詞性標(biāo)注得到TF-IDF詞袋矢量,利用物流評(píng)價(jià)中的相關(guān)語(yǔ)料建立的標(biāo)準(zhǔn)詞匯庫(kù)S 尋找分詞中的近義詞,并使用標(biāo)準(zhǔn)詞匯替代,形成替換后的分詞庫(kù)Vs。根據(jù)語(yǔ)料同義詞匯相似度計(jì)算大于0.600 00 可視作可進(jìn)行同義替換的詞匯,并進(jìn)行同義替換操作。

        步驟4 進(jìn)行LDA 模型主題聚類(lèi)。LDA 主題模型的聚類(lèi)流程圖如圖4所示。首先需要確定一個(gè)θi,表示第i個(gè)文檔對(duì)應(yīng)主題的多項(xiàng)分布,服從Dirichlet分布,由θi隨機(jī)生成一個(gè)主題Z。設(shè)置一個(gè)β值使其隨機(jī)生成主題對(duì)應(yīng)詞語(yǔ)的多項(xiàng)分布φ,也服從Dirichlet分布。綜合主題Z與主題對(duì)應(yīng)詞語(yǔ)分布情況生成詞語(yǔ)w,循環(huán)以上步驟生成一個(gè)包含m個(gè)詞語(yǔ)的文檔。最后生成K個(gè)主題下的N篇文檔,與電商平臺(tái)在線評(píng)論文本進(jìn)行對(duì)比,從而生成聚類(lèi)結(jié)果。

        圖4 LDA模型算法流程

        K個(gè)主題是需要人為設(shè)定的參數(shù)之一,K的取值大小會(huì)影響LDA主題模型的分類(lèi)結(jié)果,因此,采用困惑度取值最佳主題數(shù)目K。

        Vs為標(biāo)準(zhǔn)詞匯集合,D為文檔數(shù),pwd是文檔生成概率,Dd,i是文檔d中的第i個(gè)詞,z為某個(gè)特定主題。

        3 數(shù)據(jù)實(shí)證與算例分析

        3.1 實(shí)證研究數(shù)據(jù)準(zhǔn)備及參數(shù)設(shè)置

        利用python3.9爬取某電商平臺(tái)中各類(lèi)商品評(píng)價(jià)共70 000 條,去除重復(fù)數(shù)據(jù)以及默認(rèn)評(píng)價(jià)共15 438條,保留54 562條文本評(píng)價(jià)數(shù)據(jù)。根據(jù)式(1)、式(2)算出困惑度,當(dāng)困惑度最低時(shí)模型效果最好,實(shí)證選取K=6,α=0.1,β=0.01。

        首先,對(duì)收集的文本評(píng)價(jià)數(shù)據(jù)進(jìn)行分詞處理,利用jieba分詞庫(kù)把一句話切分成若干個(gè)詞語(yǔ),采用停用詞進(jìn)行文本整體去噪和分詞去噪,利用根據(jù)物流行業(yè)建立的詞向量庫(kù)對(duì)所得的TF-IDF詞袋矢量進(jìn)行同義詞標(biāo)準(zhǔn)替換,以“物流”為例,同義詞相似度表見(jiàn)表1。

        表1 特征值相似度表

        3.2 實(shí)驗(yàn)結(jié)果分析

        LDA模型與經(jīng)過(guò)同義詞替換的LDA模型獲得的主題詞、主題詞下特征值以及特征值的概率分布見(jiàn)表2、表3??梢钥吹絻蓚€(gè)模型對(duì)于主題特征值提取大部分都是相同的,經(jīng)過(guò)同義替換后的特征值概率值均大于傳統(tǒng)LDA模型,也可以看到傳統(tǒng)LDA模型中各個(gè)特征值的概率均小于10%,而同義詞替換后LDA模型中特征值概率有明顯上升。

        表2 傳統(tǒng)LDA模型特征值分布

        表3 改進(jìn)LDA模型特征值分布

        根據(jù)改進(jìn)LDA 模型特征值及其概率分布可以看出,在進(jìn)行同義詞替換后,占比較大的特征值能夠在主題中體現(xiàn)的更加明顯,并且提升了特征值分布的概率分布,對(duì)于商家、物流方以及消費(fèi)者有更有價(jià)值的決策信息支持。Topic1 主題為生鮮產(chǎn)品,可以看出消費(fèi)者更注重生鮮產(chǎn)品的新鮮程度、物流快慢、包裝的完善程度,對(duì)于商家來(lái)說(shuō),在保證自身產(chǎn)品質(zhì)量的前提下,選擇合適的物流方合作是提升銷(xiāo)量的關(guān)鍵點(diǎn)之一。Topic2 主題為大型家電,在消費(fèi)者的評(píng)價(jià)中突出了對(duì)家電的安裝與否、物流速度以及性價(jià)比高低的重視,與其他類(lèi)別的商品對(duì)物流的需求不同,家電產(chǎn)品要求商家選擇提供安裝服務(wù)的物流合作商。Topic3、Topic4、Topic5、Topic6 分別為個(gè)護(hù)類(lèi)、食品類(lèi)、日用百貨類(lèi)以及服務(wù)類(lèi),對(duì)物流的要求并不高,更多關(guān)注產(chǎn)品自身的價(jià)值程度,因此,商家在選擇物流合作方時(shí),可以將合作重點(diǎn)放在控制成本上,在滿足消費(fèi)者基礎(chǔ)物流需求前提下減少物流成本。

        3.3 “主題-特征值”多維資源可視化分析

        根據(jù)LDA 主題模型的文本聚類(lèi)結(jié)果可看出,電商平臺(tái)上五大類(lèi)消費(fèi)產(chǎn)品“生鮮”“電器”“食品”“個(gè)護(hù)”“服務(wù)”“日用”對(duì)于物流的需求都不相同。將電商平臺(tái)在線評(píng)論的聚類(lèi)結(jié)果運(yùn)用多維資源圖譜展示出來(lái),如圖5 所示,距離主題點(diǎn)越遠(yuǎn)表示其在主題中的概率分布越小,相反則在主題中的概率分布越大。多維資源圖譜將概率分布的情況運(yùn)用可視化展示出來(lái),越靠近主題點(diǎn)表示此類(lèi)特征對(duì)于產(chǎn)品來(lái)說(shuō)更受消費(fèi)者青睞,可視化為電商各角色提供了更加清晰的決策支持?jǐn)?shù)據(jù)。電商平臺(tái)商家可據(jù)此調(diào)整與物流商家的合作。

        圖5 改進(jìn)LDA主題多維資源可視化

        3.4 模型有效性評(píng)估

        以查準(zhǔn)率P、查全率R來(lái)判斷基于LDA模型的同義合并文本分類(lèi)方法的有效性。在進(jìn)行文本分類(lèi)后,可對(duì)分類(lèi)結(jié)果進(jìn)行劃分,用TP 表示真實(shí)情況與預(yù)測(cè)情況都為正的情況稱為真正例;FN 表示真實(shí)情況為正,預(yù)測(cè)結(jié)果為反的案例,稱為假反例;FP表示真實(shí)情況為反例,預(yù)測(cè)結(jié)果為正例,稱為假正例;TN表示真實(shí)情況與預(yù)測(cè)結(jié)果均為反例的案例,稱為真反例,整體混淆矩陣見(jiàn)表4。

        表4 混淆矩陣[18]

        根據(jù)混淆矩陣得到查準(zhǔn)率以及查全率,查準(zhǔn)率與查全率之間存在一定的依賴關(guān)系,查全率高則查準(zhǔn)率下降,反之,查全率低則查準(zhǔn)率上升,因此,利用查準(zhǔn)率與查全率的調(diào)和平均值F 值進(jìn)行模型的有效性評(píng)估[19],見(jiàn)表5。

        表5 算法查準(zhǔn)率P、查全率R及F值對(duì)比

        在算法性能對(duì)比上可看出,在進(jìn)行同義文本替換后,模型的查全率顯著提高,解決了某一部分在線評(píng)價(jià)文本由于同義表達(dá)過(guò)多導(dǎo)致的文本分類(lèi)無(wú)法聚類(lèi)問(wèn)題。根據(jù)F值可知改進(jìn)LDA模型在有效性上超越了傳統(tǒng)的LDA模型,因此,本文提出的物流在線評(píng)價(jià)主題挖掘的決策信息在一定程度上為商家、消費(fèi)者以及物流企業(yè)提供了更為有效的決策支持信息。

        4 總結(jié)與展望

        物流服務(wù)作為電子商務(wù)平臺(tái)上連接商家與消費(fèi)者的中間商,了解物流服務(wù)在各個(gè)產(chǎn)品銷(xiāo)售中的重要性有助于商家為消費(fèi)者提供更好的服務(wù)。本文利用改進(jìn)的LDA模型對(duì)消費(fèi)者的消費(fèi)評(píng)價(jià)進(jìn)行主題分析,改進(jìn)LDA模型原本過(guò)于分散的特征值,將同義的特征詞進(jìn)行合并處理,并且用可視化的多維資源地圖展示其聚類(lèi)結(jié)果,為電子商務(wù)各級(jí)用戶提供了更加明確的聚類(lèi)決策信息。商家可依據(jù)商品評(píng)論聚類(lèi)結(jié)果選擇合適的物流合作商來(lái)提高商品交易量,物流方也可以根據(jù)消費(fèi)者對(duì)于物流的需求改進(jìn)服務(wù)。

        本文討論了同義詞、近義詞在商品評(píng)論中對(duì)聚類(lèi)結(jié)果的影響,在用標(biāo)準(zhǔn)詞匯替換同義詞、近義詞后聚類(lèi)成果更加集中,相比之下,未進(jìn)行同義詞、近義詞替換的聚類(lèi)結(jié)果特征值過(guò)于分散平均,決策信息不明顯。實(shí)證研究發(fā)現(xiàn),生鮮類(lèi)、食品類(lèi)、電器類(lèi)對(duì)于物流的要求較高,往往需要快速的物流速度以及完善的物流服務(wù),而個(gè)護(hù)類(lèi)、食品類(lèi)、日用百貨類(lèi)以及服務(wù)類(lèi)對(duì)物流的要求并不高,更多關(guān)注產(chǎn)品自身的價(jià)值程度。未來(lái)研究希望在同義詞替換聚類(lèi)的基礎(chǔ)上,將商品評(píng)論中的情感類(lèi)詞匯納入考慮范圍,探討在線評(píng)論的情感偏向?qū)ξ锪餍袠I(yè)決策的影響。

        猜你喜歡
        物流文本評(píng)價(jià)
        SBR改性瀝青的穩(wěn)定性評(píng)價(jià)
        石油瀝青(2021年4期)2021-10-14 08:50:44
        在808DA上文本顯示的改善
        本刊重點(diǎn)關(guān)注的物流展會(huì)
        “智”造更長(zhǎng)物流生態(tài)鏈
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        基于Moodle的學(xué)習(xí)評(píng)價(jià)
        基于低碳物流的公路運(yùn)輸優(yōu)化
        決戰(zhàn)“最后一公里”
        商界(2014年12期)2014-04-29 00:44:03
        如何快速走進(jìn)文本
        人妻影音先锋啪啪av资源| 91精品国产综合久久青草| 国产黄色污一区二区三区| 日本美女在线一区二区| 欧美国产综合欧美视频| 欧美 国产 综合 欧美 视频| 99久久久无码国产精品9| 色哟哟av网站在线观看| 人妻av不卡一区二区三区| 青青草视频在线观看色| 色哟哟最新在线观看入口| 99久久精品费精品国产一区二区| 国产在线视频国产永久视频| 人妻少妇中文字幕av| 无码专区人妻系列日韩精品| 国产xxxx99真实实拍| 国产精品99精品一区二区三区∴| 一区=区三区国产视频| 婷婷精品国产亚洲av麻豆不片| 国精品无码一区二区三区在线| 高清国产一级毛片国语| 亚洲五月天中文字幕第一页| 久久成人成狠狠爱综合网| 老熟女高潮一区二区三区| 中文精品久久久久中文| 国产女人乱码一区二区三区| 国产日韩av在线播放| 中文无码精品一区二区三区| 免费国产在线精品三区| 中文字幕人妻精品一区| av国产传媒精品免费| 亚洲色偷偷色噜噜狠狠99| 国产三级在线观看性色av | 亚洲国产精品久久久天堂不卡海量 | 久久亚洲AV无码精品色午夜| 国产一区二区三区av观看| 亚洲日韩精品a∨片无码加勒比| 日韩欧美在线综合网| 青青草针对华人超碰在线| 国产一区二区三区四区在线视频| 亚洲精品粉嫩美女一区|