亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于網(wǎng)絡(luò)數(shù)據(jù)采集與LDA主題模型的ofo用戶(hù)評(píng)論挖掘

        2017-08-21 10:22:48阮澤楠王慧
        大經(jīng)貿(mào) 2017年7期
        關(guān)鍵詞:文本挖掘共享單車(chē)

        阮澤楠 王慧

        【摘 要】 隨著共享經(jīng)濟(jì)熱潮的發(fā)展,以ofo為代表的共享單車(chē)出現(xiàn)在城市的各個(gè)角落。為了挖掘用戶(hù)在使用共享單車(chē)過(guò)程中關(guān)注的問(wèn)題,以提高用戶(hù)體驗(yàn),本文針對(duì)用戶(hù)評(píng)論進(jìn)行分析。以ofo小黃車(chē)為例,抓取了百度ofo貼吧的相關(guān)文本數(shù)據(jù),并進(jìn)行文本預(yù)處理。通過(guò)TF-IDF算法檢驗(yàn)文本預(yù)處理的效果,同時(shí)構(gòu)建所需語(yǔ)料庫(kù)以及建立DTM文檔—詞項(xiàng)矩陣,最終通過(guò)LDA主題分析模型,將用戶(hù)評(píng)論分為若干主題,由評(píng)論文本提取的用戶(hù)潛在關(guān)注主題對(duì)ofo經(jīng)營(yíng)發(fā)展給出適當(dāng)分析與建議。

        【關(guān)鍵詞】 共享單車(chē) ofo 爬蟲(chóng)應(yīng)用 文本挖掘 LDA主題分析

        1 引言

        隨著信息技術(shù)的發(fā)展以及國(guó)家對(duì)共享經(jīng)濟(jì)的支持,從2016年底起,以共享單車(chē)為代表的共享交通行業(yè)快速發(fā)展。但是隨著用戶(hù)數(shù)量以及競(jìng)爭(zhēng)對(duì)手的增加,用戶(hù)對(duì)共享單車(chē)的需求層次也越來(lái)越復(fù)雜。以ofo為例,復(fù)雜的運(yùn)營(yíng)環(huán)境給自身的發(fā)展帶來(lái)了巨大的成長(zhǎng)空間和機(jī)遇,而如何抓住機(jī)遇是關(guān)鍵所在。本文認(rèn)為通過(guò)文本挖掘發(fā)現(xiàn)用戶(hù)關(guān)注祝主題,有針對(duì)性的進(jìn)行單車(chē)質(zhì)量改進(jìn)以及營(yíng)銷(xiāo),會(huì)提高消費(fèi)者的用戶(hù)體驗(yàn),有助于在錯(cuò)綜復(fù)雜的市場(chǎng)環(huán)境中脫穎而出。

        文本挖掘主題模型分析是自然語(yǔ)言處理的重要應(yīng)用領(lǐng)域之一[1]。文本挖掘主要是是指從大量無(wú)結(jié)構(gòu)文本信息中發(fā)現(xiàn)潛在數(shù)據(jù)模式,并抽取有價(jià)值知識(shí)以更好地組織信息的過(guò)程[2]。主題模型,即刻畫(huà)主題的數(shù)學(xué)模型,是對(duì)主題進(jìn)行形式化描述的方法。Deer wester 等人于1990年提出潛在語(yǔ)義分析(LSA)模型[3],LSA模型用高維的向量空間模型表示文檔,并通過(guò)SVM(奇異值分解)對(duì)矩陣降維分解,映射到低維的潛在語(yǔ)義空間中,文本分析的研究不再局限于傳統(tǒng)的詞頻統(tǒng)計(jì)分析??紤]到LSA模型存在不能辨識(shí)同義詞和一詞多義的不足,Hofmann 等人[4]于1999年提出了基于概率的潛在語(yǔ)義分析(pLSA)模型,使用概率手段獲取潛在的主題以及主題與詞匯、文檔之間的關(guān)系,能夠?yàn)樾畔⑻崛√峁└玫脑~匯匹配。而第一個(gè)完整的主題模型是由Blei 等人[5]提出的潛在狄利克雷分布(LDA),LDA模型是基于三級(jí)層次結(jié)構(gòu)的貝葉斯模型。LDA模型在上述模型的基礎(chǔ)上使用了潛在主題(topic),并基于貝葉斯網(wǎng)絡(luò)框架采用Dirichlet先驗(yàn)分布,增強(qiáng)了模型的推廣能力和穩(wěn)健性。很多國(guó)內(nèi)外學(xué)者在LDA 模型的基礎(chǔ)作出了相關(guān)研究,其中國(guó)內(nèi)學(xué)者應(yīng)用于評(píng)論的LDA模型研究主要分為三個(gè)方面:垃圾評(píng)論的發(fā)現(xiàn)、情感分析和評(píng)論的特征挖掘。刁宇峰等人[6]利用 LDA 模型訓(xùn)練評(píng)論的主題模型,從中提取垃圾評(píng)論;呂韶華等 [7]提出了用于情感二分類(lèi)的 Dependency-Sentiment-LDA 模型,模型不僅考慮了情感詞所表達(dá)的話(huà)題語(yǔ)境,而且還考慮了情感詞的局部依賴(lài)關(guān)系;阮光冊(cè)[8]等結(jié)合了知網(wǎng)(HowNet)與 LDA 模型,將用戶(hù)評(píng)論的內(nèi)容映射到主題上,以此提取主題特征詞。王鵬[9]等人在利用LDA模型得到文本的主題分布后,將所得分布作為特征融入傳統(tǒng)的向量空間模型,并依據(jù)相似度進(jìn)行文本聚類(lèi),再利用主題信息對(duì)聚類(lèi)結(jié)果進(jìn)行聚簇描述。本文主要是針對(duì)ofo貼吧文本數(shù)據(jù)進(jìn)行評(píng)論的特征挖掘,找出ofo用戶(hù)主要關(guān)注點(diǎn),從而有針對(duì)地對(duì)ofo運(yùn)營(yíng)提出意見(jiàn)。

        2 數(shù)據(jù)獲取與預(yù)處理

        本文分析的ofo客戶(hù)體驗(yàn)反映數(shù)據(jù)來(lái)自百度ofo貼吧,爬取的帖子包括截止至2017年5月6日共100頁(yè)內(nèi)容(每頁(yè)包括50個(gè)帖子),考慮到貼吧內(nèi)容與主題相關(guān)程度,為了防止因余下樓層的大量灌水評(píng)論行為影響實(shí)驗(yàn)數(shù)據(jù)的純度,文本爬取只選擇帖子標(biāo)題以及1樓發(fā)帖人的闡述內(nèi)容。

        使用python語(yǔ)言編寫(xiě)腳本進(jìn)行文本爬取,并通過(guò)分析網(wǎng)頁(yè)源碼結(jié)構(gòu),有選擇地爬取符合要求的帖子內(nèi)容的文本數(shù)據(jù),保存為按行分列的文本文件,為后期進(jìn)行具體分析提供優(yōu)質(zhì)的原始數(shù)據(jù)。使用python語(yǔ)言編寫(xiě)腳本的原因,一方面是python腳本簡(jiǎn)潔方便的特點(diǎn)為案例實(shí)施提供了一定便捷,另一方面,網(wǎng)絡(luò)數(shù)據(jù)編碼較為復(fù)雜,使用集成式網(wǎng)絡(luò)爬蟲(chóng)工具則會(huì)給文本數(shù)據(jù)的后期處理帶來(lái)較大的難度。網(wǎng)絡(luò)數(shù)據(jù)存在復(fù)雜的字符編碼格式,尤其是基于評(píng)論的文本內(nèi)容平臺(tái)來(lái)源不一,導(dǎo)致內(nèi)容編碼格式的無(wú)序,若不能統(tǒng)一編碼,必將對(duì)后期數(shù)據(jù)整理造成障礙。這也即是本文進(jìn)行文本數(shù)據(jù)獲取的關(guān)鍵所在。

        同時(shí),實(shí)驗(yàn)數(shù)據(jù)清洗整理部分采用python接口,保證數(shù)據(jù)在不同平臺(tái)間使用的穩(wěn)定性,原始文本數(shù)據(jù)最終下載為utf-8格式約700k大小的txt文本。爬蟲(chóng)腳本流程圖如圖1所示:

        3 文本預(yù)處理

        由于貼吧數(shù)據(jù)具有不規(guī)范性、口語(yǔ)化、碎片化等特點(diǎn),在進(jìn)行主題挖掘之前需要對(duì)數(shù)據(jù)進(jìn)行文本預(yù)處理,以為后續(xù)的工作提供良好的數(shù)據(jù)源。根據(jù)本文文本數(shù)據(jù)的特征,對(duì)文本進(jìn)行預(yù)處理采取以下幾個(gè)步驟:特殊字符處理——處理編碼——中文分詞——去除停用詞。

        (1)去除噪聲數(shù)據(jù)

        對(duì)噪聲數(shù)據(jù)進(jìn)行篩選、清洗能夠提高數(shù)據(jù)的處理效率。由于原始數(shù)據(jù)網(wǎng)絡(luò)來(lái)源的特殊性(其中夾雜大量特殊字符),刪除原始文本數(shù)據(jù)特殊字符,最終保證文本編碼統(tǒng)一為utf-8格式。

        (2)中文分詞以及去除停用詞

        與英文文本不同,中文是以詞為最小語(yǔ)義單元,需要對(duì)中文文本進(jìn)行分詞。中文分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過(guò)程。在真實(shí)的評(píng)論數(shù)據(jù)夾雜大量無(wú)意義的詞語(yǔ),例如常用的介詞、連詞、語(yǔ)氣詞等。這些大量使用而無(wú)意義的詞(停用詞)最終將影響算法分析結(jié)果。

        本文使用結(jié)巴(jieba)分詞進(jìn)行中文分詞處理。基于R語(yǔ)言的jiebaR包進(jìn)行分詞最終得到以原始文本的各個(gè)詞語(yǔ)為單元結(jié)構(gòu)的文本文件。在分詞完成的基礎(chǔ)上,根據(jù)評(píng)論類(lèi)文本的常見(jiàn)應(yīng)用詞,刪除分詞結(jié)果中的停用詞。利用ggplot2對(duì)分詞結(jié)果的詞頻繪制平滑曲線(xiàn)圖,用以對(duì)分詞后詞語(yǔ)分布的把握。把詞頻歸一化到Z值(z_score),Z值表示特征值離它的平均值有多遠(yuǎn),并用標(biāo)準(zhǔn)方差來(lái)計(jì)算,詞頻轉(zhuǎn)換為Z值后,0代表平均值,負(fù)數(shù)是低于平均值的值,如圖2所示:

        以預(yù)處理后為文本數(shù)據(jù)為基礎(chǔ),構(gòu)建語(yǔ)料庫(kù)以及文檔詞項(xiàng)矩陣(DTM),關(guān)于DTM矩陣的具體內(nèi)容參見(jiàn)主題分析LDA部分)。至此,用以主題分析模型的數(shù)據(jù)內(nèi)容和格式充分準(zhǔn)備完畢。

        4 主題挖掘分析

        4.1 LDA主題模型

        本文采用LDA主題模型用以挖掘ofo用戶(hù)評(píng)論中潛藏的有關(guān)業(yè)務(wù)優(yōu)劣和客戶(hù)需求的更多信息。LDA(Latent Dirchlet Allocation)算法由Blei等[5]于2003年提出,對(duì)于一篇文檔d中的每一個(gè)單詞,LDA根據(jù)先驗(yàn)知識(shí)確定某篇文檔的主題分布,然后從該文檔所對(duì)應(yīng)的多項(xiàng)分布(主題分布)中抽取一個(gè)主題,接著根據(jù)先驗(yàn)知識(shí)確定當(dāng)前主題的詞語(yǔ)分布,然后從主題所對(duì)應(yīng)的多項(xiàng)分布(詞分布)中抽取一個(gè)單詞。然后將這個(gè)過(guò)程重復(fù)N次,就產(chǎn)生了文檔d。

        在本文的用戶(hù)評(píng)論研究中,評(píng)論中的特征詞是模型中的可觀測(cè)變量,從客戶(hù)發(fā)帖角度考慮,每個(gè)帖子的標(biāo)題內(nèi)容都存在一個(gè)中心思想,即主題。如果某個(gè)潛在的主題同時(shí)是多個(gè)用戶(hù)帖子內(nèi)容的主題,則這一潛在主題很可能是整個(gè)評(píng)論語(yǔ)料集的熱門(mén)議論點(diǎn)。在這個(gè)潛在主題上越高頻的特征詞越可能成為熱門(mén)議論點(diǎn)中的關(guān)鍵詞。針對(duì)本文的用戶(hù)評(píng)論文本,LDA模型的原理如下:

        (1)假定語(yǔ)料庫(kù)中共有M條評(píng)論,每條評(píng)論的Topic主題分布是一個(gè)從參數(shù)為的Dirichlet先驗(yàn)分布中采樣得到Multinomial分布,每個(gè)Topic下的詞分布是一個(gè)從參數(shù)為的Dirichlet先驗(yàn)分布中采樣得到Multinomial分布。

        (2)對(duì)于某條評(píng)論中的第n個(gè)詞,首先從該評(píng)論中出現(xiàn)的每個(gè)主題的Multinomial分布(主題分布)中選擇或采樣一個(gè)主題,然后再在這個(gè)主題所對(duì)應(yīng)的詞的Multinomial分布(詞分布)中選擇或者采樣一個(gè)詞。不斷重復(fù)這個(gè)隨機(jī)生成過(guò)程,直到M條評(píng)論全部生成完成。

        利用R語(yǔ)言topicmodels包實(shí)現(xiàn)LDA模型分析,其中LDA參數(shù)近似估計(jì)的方式選擇Gibbs抽樣,同時(shí)主題個(gè)數(shù)K采用統(tǒng)計(jì)語(yǔ)言模型中常用的評(píng)價(jià)標(biāo)準(zhǔn)困惑度來(lái)選取(K=50),狄利克雷函數(shù)的先驗(yàn)參數(shù)和設(shè)置為經(jīng)驗(yàn)值(, )。

        4.2 實(shí)驗(yàn)結(jié)果及分析

        進(jìn)行LDA主題分析后,用戶(hù)評(píng)論內(nèi)容最終聚成3個(gè)主題,每個(gè)主題下生成10個(gè)最有可能出現(xiàn)的詞語(yǔ),如圖3所示:

        (1)主題一分析與建議

        主題一中的高頻特征詞,主要為押金、異常、技巧、求助等,主要反映了用戶(hù)在車(chē)輛使用上遇到的實(shí)際問(wèn)題。主題一反映出如下的問(wèn)題,針對(duì)具體問(wèn)題給出相應(yīng)建議。

        ①賬戶(hù)押金的收取與退款情況,部分用戶(hù)在ofo押金退款時(shí)遇到問(wèn)題,可能是對(duì)銀行卡相關(guān)常識(shí)以及在線(xiàn)支付知識(shí)的欠缺造成,因此,建議后臺(tái)設(shè)計(jì)人員在相關(guān)操作欄給出提示性標(biāo)識(shí)和操作流程提示,同時(shí)加強(qiáng)客服通訊質(zhì)量,盡最大可能為遇到問(wèn)題的客戶(hù)提供指導(dǎo)。

        ②部分用戶(hù)對(duì)小黃車(chē)的實(shí)際使用技巧,例如坐位高度和車(chē)把手位置的調(diào)整、自行車(chē)開(kāi)鎖問(wèn)題以及意外異常情況發(fā)生時(shí)的處理方式存有疑惑,說(shuō)明官方使用說(shuō)明比較簡(jiǎn)單,因此建議可以設(shè)置不同詳細(xì)程度的官方使用說(shuō)明以滿(mǎn)足不同背景的用戶(hù)。

        此外,主題一還反映了終端app在界面顯示上存在的問(wèn)題,究竟是軟件自身的不穩(wěn)定性所致,還是部分客戶(hù)自身所處網(wǎng)絡(luò)環(huán)境不穩(wěn)定所致,原因有待進(jìn)一步考證。

        (2)主題二分析與建議

        主題二中的高頻特征詞主要圍繞客戶(hù)在ofo使用過(guò)程中對(duì)外界橫向環(huán)境的思考,其中客戶(hù)關(guān)注點(diǎn)較高的是對(duì)另一款共享單車(chē)(摩拜單車(chē))的比較與思考,從該角度考慮,建議官方在定位使用價(jià)格、款式、押金等各參數(shù)時(shí)適當(dāng)納入競(jìng)爭(zhēng)對(duì)手的情況以作參考,并根據(jù)實(shí)際戰(zhàn)略應(yīng)對(duì)的不同層次的用戶(hù)做適當(dāng)調(diào)整,爭(zhēng)取更多的新用戶(hù)并且留住老用戶(hù),擴(kuò)大客戶(hù)總基數(shù)。

        同時(shí),該主題還揭示了地鐵站作為較大客流量的公共場(chǎng)所,對(duì)小黃車(chē)存在獨(dú)特的需求量和需求特點(diǎn)。針對(duì)地鐵站的特殊性,可以相對(duì)加派地區(qū)工作人員,并在節(jié)假日以及每日高峰期間額外提供部分車(chē)輛,具體情況落實(shí)還應(yīng)考慮到當(dāng)?shù)厝肆鳌⒔煌?xí)慣等現(xiàn)實(shí)因素。

        (3)主題三分析與建議

        主題三主要體現(xiàn)的是客戶(hù)對(duì)ofo官方宣傳活動(dòng)以及優(yōu)惠政策給出的各種反饋。用戶(hù)關(guān)注較高的是分享得紅包和抽獎(jiǎng)活動(dòng),其中部分客戶(hù)對(duì)獎(jiǎng)勵(lì)較小抱有不滿(mǎn),但從客戶(hù)反饋的活躍度看,活動(dòng)整體效果基本較好,客戶(hù)響應(yīng)熱烈,一定程度上提高了新客戶(hù)、潛在客戶(hù)選擇小黃車(chē)出行的可能性。

        LDA主題模型分析結(jié)果總體上較為客觀,能夠?qū)?jīng)過(guò)噪聲清理之后的文本挖掘出較為精確地結(jié)果。

        5 結(jié)語(yǔ)

        本文研究目的是通過(guò)主題模型分析,挖掘出ofo用戶(hù)主要關(guān)注的主題,并根據(jù)挖掘的結(jié)果給出相應(yīng)的建議。文章首先介紹了文本挖掘的簡(jiǎn)單流程,并結(jié)合對(duì)ofo貼吧爬取的文本數(shù)據(jù),利用主題模型相關(guān)算法,基于Python和R語(yǔ)言環(huán)境得到最終的模型處理結(jié)果。最后結(jié)合ofo實(shí)際運(yùn)營(yíng)情況對(duì)結(jié)果進(jìn)行分析,并為ofo的研發(fā)維護(hù)重點(diǎn)的選擇和市場(chǎng)推廣競(jìng)爭(zhēng)工作的重心調(diào)整提供一定的理性決策支持。另外,由于網(wǎng)絡(luò)評(píng)論數(shù)據(jù)相對(duì)較自由的形式以及復(fù)雜數(shù)據(jù)爬取后篩選噪聲的條件有限,主題模型結(jié)果存在少量關(guān)鍵詞意義較難辨別,對(duì)此進(jìn)一步擴(kuò)展數(shù)據(jù)源同時(shí)優(yōu)化對(duì)關(guān)鍵內(nèi)容的篩選條件將是接下來(lái)的工作中進(jìn)一步探索的方向。

        【參考文獻(xiàn)】

        [1] 宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].北京:清華大學(xué)出版社,2013.

        [2] 鄭雙怡, 文本挖掘及其在知識(shí)管理中的應(yīng)用. 中南民族大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版), 2005(04): 第127-130頁(yè).

        [3] Thomas K. Landauer;Peter W. Foltz;Darrell Laham.An introduction to latent semantic analysis[J].Discourse Processes,1998,25(2):259-267.

        [4] Thomas Hofmann.Probabilistic Latent Semantic Indexing[A].SIGIR,1999:50-57.

        [5] David M.Blei,Andrew Y.Ng,Michael I.Jordan.Latent Dirichlet Allocation[J].Joumal of Machine Learing Research,2003,3:993-1022.

        [6] 刁宇峰, 楊亮與林鴻飛, 基于LDA模型的博客垃圾評(píng)論發(fā)現(xiàn). 中文信息學(xué)報(bào), 2011(01): 第41-47頁(yè).

        [7] 呂韶華, 楊亮與林鴻飛, 基于LDA模型的餐館評(píng)論排序. 計(jì)算機(jī)工程, 2011(19): 第62-64+67頁(yè).

        [8] 阮光冊(cè), 基于LDA的網(wǎng)絡(luò)評(píng)論主題發(fā)現(xiàn)研究. 情報(bào)雜志, 2014(03): 第161-164頁(yè)

        [9] 王鵬.高誠(chéng),陳曉美.基于LDA模型的文本聚類(lèi)研究[J].情報(bào)科學(xué),2015,33(01):63-69.

        作者簡(jiǎn)介:阮澤楠(1993—),男,漢,浙江紹興,碩士,浙江理工大學(xué)。

        猜你喜歡
        文本挖掘共享單車(chē)
        “共享單車(chē)”前面有兩座大山
        商界(2017年3期)2017-03-14 16:49:16
        數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
        基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
        文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用
        商(2016年34期)2016-11-24 16:28:51
        “共享單車(chē)”是一門(mén)好生意嗎
        華聲(2016年20期)2016-11-19 21:14:52
        從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢(shì)
        慧眼識(shí)璞玉,妙手煉渾金
        文本觀點(diǎn)挖掘和情感分析的研究
        在线亚洲精品免费视频| 国产激情视频在线| 国产av色| 免费美女黄网站久久久| 麻豆激情视频在线观看| 国产精品国产三级国产剧情 | 亚洲嫩草影院久久精品| 日韩精品有码中文字幕在线| 国产伦精品一区二区三区| 手机在线看片国产人妻| 日本丰满少妇裸体自慰| 中文字幕丰满伦子无码| 色欲麻豆国产福利精品| 亚洲a∨天堂男人无码| 久久99老妇伦国产熟女高清| 一区二区三区人妻在线| 国产亚洲一区二区在线观看| 无码熟妇人妻av影音先锋 | 永久免费av无码网站性色av| 无码国产精品一区二区免费97| 无码人妻专区一区二区三区| 中文字幕日韩高清乱码| 国产亚洲精品综合一区| 99久久人妻无码精品系列| 国产午夜精品久久久久免费视| 国产精品公开免费视频| 日韩激情网| 久久精品伊人久久精品| 日韩熟女系列中文字幕| av中文字幕潮喷人妻系列| 久久人人妻人人做人人爽| 久久熟女五十路| 国产精品又湿又黄九九九久久嫩草| 日本亚洲精品一区二区三| 女人下面毛多水多视频| 亚洲人成电影在线无码| 伊人色综合九久久天天蜜桃| av成人综合在线资源站| 亚洲精品一区久久久久一品av| 国产一区二区波多野结衣| 欧美国产日产一区二区|