亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于位置的社交網(wǎng)絡(luò)商戶數(shù)據(jù)語義分析

        2017-06-29 12:00:33何新磊
        關(guān)鍵詞:情感內(nèi)容用戶

        黃 岳 何新磊 陳 陽 趙 進(jìn)

        (復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海 201203) (網(wǎng)絡(luò)信息安全審計(jì)與監(jiān)控教育部工程研究中心 上海 201203)

        基于位置的社交網(wǎng)絡(luò)商戶數(shù)據(jù)語義分析

        黃 岳 何新磊 陳 陽 趙 進(jìn)

        (復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海 201203) (網(wǎng)絡(luò)信息安全審計(jì)與監(jiān)控教育部工程研究中心 上海 201203)

        近年來,“移動(dòng)”和“社交”成為了推動(dòng)互聯(lián)網(wǎng)發(fā)展的兩項(xiàng)關(guān)鍵技術(shù)。在這兩項(xiàng)技術(shù)的共同推動(dòng)下,基于位置的社交網(wǎng)絡(luò)LBSN得到了快速發(fā)展,在全球范圍內(nèi)吸引了海量的用戶,不論是學(xué)術(shù)界還是工業(yè)界都在大力投入對(duì)LBSN的研究。LBSN網(wǎng)站都是以位置為中心的,也就是說任何用戶原創(chuàng)內(nèi)容,例如簽到或評(píng)論,都必須與一個(gè)具體位置相關(guān)聯(lián)。盡管位置信息在LBSN中扮演著重要的角色,但是目前國內(nèi)外針對(duì)LBSN的研究基本上都是從用戶角度出發(fā)的,缺少從位置角度的研究。同時(shí),目前對(duì)LBSN中用戶原創(chuàng)內(nèi)容的分析缺少對(duì)文本信息的分析,在對(duì)目前中國最大的在線點(diǎn)評(píng)類社交網(wǎng)絡(luò)——大眾點(diǎn)評(píng)上的商家評(píng)論內(nèi)容進(jìn)行了大規(guī)模的數(shù)據(jù)采集,并針對(duì)獲取的大量用戶評(píng)論文本開展了語義分析。

        基于位置的社交網(wǎng)絡(luò) 位置角度 用戶原創(chuàng)內(nèi)容 語義分析

        0 引 言

        近年來,“移動(dòng)”和“社交”成為了推動(dòng)互聯(lián)網(wǎng)發(fā)展的兩項(xiàng)關(guān)鍵技術(shù)。一方面,隨著移動(dòng)端設(shè)備的普及,移動(dòng)端的流量在整個(gè)網(wǎng)絡(luò)流量中所占據(jù)的比例越來越大。根據(jù)互聯(lián)網(wǎng)統(tǒng)計(jì)公司comScore 2015年11月所發(fā)布的數(shù)據(jù),移動(dòng)端設(shè)備所產(chǎn)生的流量已經(jīng)占據(jù)了互聯(lián)網(wǎng)流量的60%以上,并且這個(gè)比例還在不斷提升[1]。實(shí)時(shí)定位功能是移動(dòng)設(shè)備的重要特性之一,因此移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展也帶動(dòng)了基于位置的服務(wù)的高度普及。另一方面,社交網(wǎng)絡(luò)及其相關(guān)應(yīng)用,成為了人們?nèi)粘;ヂ?lián)網(wǎng)使用中非常重要的一部分,國外的Facebook、Twitter、LinkedIn、Pinterest以及國內(nèi)的微博、微信、人人網(wǎng)等社交平臺(tái)已經(jīng)吸引了超過10億的互聯(lián)網(wǎng)用戶。在這兩個(gè)關(guān)鍵技術(shù)的共同作用下,基于位置的社交網(wǎng)絡(luò)(LBSN)成為了一個(gè)快速發(fā)展的新興互聯(lián)網(wǎng)應(yīng)用。位置信息給社交網(wǎng)絡(luò)在用戶社交關(guān)系之外增加了一個(gè)新的維度,通過對(duì)用戶移動(dòng)軌跡的記錄和共享,LBSN可以將虛擬世界的用戶互動(dòng)更加現(xiàn)實(shí)化,大大提升了用戶體驗(yàn)。國外的Yelp、Foursquare、Gowalla、Swarm,國內(nèi)的大眾點(diǎn)評(píng)、街旁、陌陌等,都是LBSN的代表性平臺(tái)。這些平臺(tái)都吸引了至少千萬量級(jí)的注冊(cè)用戶,其中Yelp和陌陌已經(jīng)分別在紐約證券交易所和納斯達(dá)克上市。根據(jù)comScore公司2015年11月的統(tǒng)計(jì),LBSN類App在移動(dòng)端的使用時(shí)間占據(jù)了所有App使用時(shí)間的29%[1]。無論是工業(yè)界還是學(xué)術(shù)界,近年來都對(duì)LBSN的相關(guān)問題給予了高度的關(guān)注。

        首先,對(duì)LBSN平臺(tái)來說,位置和用戶是其兩個(gè)關(guān)鍵元素。圍繞著位置,用戶個(gè)體可以記錄和分享一些內(nèi)容,而用戶彼此之間又能夠通過共同去過的一個(gè)位置而相互關(guān)聯(lián),產(chǎn)生互動(dòng)。對(duì)于位置來說,大量的用戶簽到和評(píng)論可以提升位置本身的熱門程度,而熱門的位置往往能夠吸引更多的用戶。然而,目前國內(nèi)外針對(duì)LBSN平臺(tái)的研究分析主要集中在對(duì)用戶數(shù)據(jù)的挖掘,圍繞著位置的研究目前還很少。

        其次,用戶原創(chuàng)內(nèi)容UGC(User Generated Content)作為一種用戶使用互聯(lián)網(wǎng)的新方式,使得網(wǎng)絡(luò)和用戶之間的互動(dòng)更加友好和便捷。在LBSN中,UGC主要體現(xiàn)為用戶的簽到和評(píng)論,簽到指的是用戶實(shí)時(shí)記錄自己的位置,而評(píng)論可以幫助用戶記錄下自己對(duì)位置的主觀感受。對(duì)于LBSN來說,UGC具有及其重要的作用,一方面,它能夠幫助網(wǎng)站吸引用戶,提升用戶的忠誠度;另一方面,UGC業(yè)務(wù)的飛速發(fā)展,形成了一種很好的商業(yè)模式,早在2006年,美國UGC的廣告收入就達(dá)到了4.5億美元[2]。然而在對(duì)UGC的研究方面,目前的研究卻主要著重于對(duì)簽到的位置和評(píng)論的時(shí)間戳的分析建模,缺少對(duì)評(píng)論的文本內(nèi)容的具體分析。尤其是在中文語義分析這方面,這方面的研究工作相對(duì)較少。

        鑒于位置信息和UGC中文本信息的重要性,本文希望從位置的角度出發(fā),對(duì)大眾點(diǎn)評(píng)的商戶數(shù)據(jù)中的用戶評(píng)論內(nèi)容進(jìn)行語義分析,揭示出其中蘊(yùn)含的規(guī)律。

        本文的主要研究內(nèi)容分為兩方面,通過網(wǎng)絡(luò)測量來獲取海量的數(shù)據(jù)是我們研究工作的第一步。我們通過編寫爬蟲程序,向大眾點(diǎn)評(píng)網(wǎng)站發(fā)送請(qǐng)求,批量地獲取大眾點(diǎn)評(píng)中所公開的商家評(píng)論內(nèi)容。這一方式的優(yōu)點(diǎn)在于無需與社交網(wǎng)站本身進(jìn)行合作,也無需耗費(fèi)資金來激勵(lì)志愿者,因此可以被研究人員方便的采用,也成為了目前絕大多數(shù)研究人員所選用的方式,相關(guān)工作包括[3-5]。

        第二,用戶的評(píng)論內(nèi)容反映了其對(duì)特定位置的主觀態(tài)度,包括各種情感色彩和情感傾向。語義分析在對(duì)社交網(wǎng)絡(luò)的研究中具有重要的作用,通過對(duì)用戶情感態(tài)度的提取,我們可以知道用戶對(duì)該位置的整體態(tài)度。通過觀察特定用戶在不同位置的情感態(tài)度變化,我們可以了解該用戶的具體喜好,甚至可以尋找出一些惡意用戶。

        總結(jié)來說,本文以網(wǎng)絡(luò)測量的方式,通過對(duì)國內(nèi)著名的LBSN平臺(tái)——大眾點(diǎn)評(píng)進(jìn)行大規(guī)模的數(shù)據(jù)采集,獲取海量的真實(shí)數(shù)據(jù)集。通過對(duì)數(shù)據(jù)中用戶評(píng)論內(nèi)容的建模分析,揭示出基于位置的用戶情感態(tài)度變化,提出改善用戶社交體驗(yàn)的解決方案。

        1 研究背景和相關(guān)工作介紹

        1.1 研究背景

        本文所選取的LBSN研究平臺(tái)是大眾點(diǎn)評(píng),作為一家消費(fèi)點(diǎn)評(píng)類的在線社交網(wǎng)站,大眾點(diǎn)評(píng)在國內(nèi)已經(jīng)處于領(lǐng)先的地位。大眾點(diǎn)評(píng)創(chuàng)建于2003年4月,如今已經(jīng)有了超過13年的歷史,這一時(shí)間甚至比美國的主流消費(fèi)點(diǎn)評(píng)網(wǎng)站Yelp還要久。2005年起,大眾點(diǎn)評(píng)就開始涉足互聯(lián)網(wǎng),并且在2009年移動(dòng)互聯(lián)網(wǎng)隨著智能手機(jī)興起后,迅速推出了其在移動(dòng)端的應(yīng)用,拓展了一些團(tuán)購和簽到的業(yè)務(wù)。作為國內(nèi)最大的消費(fèi)點(diǎn)評(píng)類的網(wǎng)站,大眾點(diǎn)評(píng)吸引了大量的用戶,平均每月有兩億的訪問量,并且其中超過85%的用戶是來自于移動(dòng)端[6]。Alexa Internet是一家專門統(tǒng)計(jì)各種網(wǎng)站的相關(guān)信息和網(wǎng)頁訪問量的公司,根據(jù)其最新的統(tǒng)計(jì),大眾點(diǎn)評(píng)的流量排名在全世界為846,在中國為98,是國內(nèi)同類型的網(wǎng)站中訪問量最高的[7]。

        作為一家消費(fèi)點(diǎn)評(píng)類的網(wǎng)站,用戶在大眾點(diǎn)評(píng)上的一切行為都必須圍繞著位置,即大眾點(diǎn)評(píng)中的商家來展開。舉例來說,一個(gè)用戶在大眾點(diǎn)評(píng)上的簽到信息是通過某個(gè)商家的位置信息來呈現(xiàn)的,并不是任意的地址。而在現(xiàn)實(shí)生活中,用戶在大眾點(diǎn)評(píng)上的消費(fèi)也是必須與特定的商家相聯(lián)系的。

        1.2 相關(guān)工作介紹

        目前,國內(nèi)外的多個(gè)課題組在對(duì)LBSN的研究上已經(jīng)進(jìn)行了一系列的工作,并取得了相應(yīng)的研究成果。這些研究成果主要圍繞著以下四個(gè)重點(diǎn)問題展開:

        1) 移動(dòng)社交網(wǎng)絡(luò)用戶原創(chuàng)內(nèi)容分析,代表性的包括用戶簽到(check-in)和點(diǎn)評(píng)(tip或者review)信息。在移動(dòng)社交網(wǎng)絡(luò)中,用戶可以利用LBSN的簽到和點(diǎn)評(píng)等功能,發(fā)布大量與位置相關(guān)的原創(chuàng)內(nèi)容。其中,英國劍橋大學(xué)的Anastasios Noulas等學(xué)者利用時(shí)空分析的方法,對(duì)Foursquare中的大量用戶簽到數(shù)據(jù)進(jìn)行研究。他們的工作揭示出了用戶總體的簽到數(shù)量在工作日和非工作日不同時(shí)段的變化規(guī)律,以及同一個(gè)用戶連續(xù)兩次簽到之間的時(shí)間間隔和地理位置間隔的規(guī)律[8]。其他的相關(guān)工作包含在文獻(xiàn)[9]。

        2) 移動(dòng)社交網(wǎng)絡(luò)的安全和隱私保護(hù)問題。在LBSN中,存在著各種各樣的惡意攻擊,攻擊者通常的做法是通過注冊(cè)大量的垃圾賬號(hào),再統(tǒng)一控制這些賬號(hào)來發(fā)布不真實(shí)甚至是騷擾性的信息,從而對(duì)正常用戶的信息獲取造成影響。然而經(jīng)過一系列前期工作發(fā)現(xiàn),現(xiàn)有的移動(dòng)社交平臺(tái)并沒有很好的針對(duì)垃圾賬號(hào)的辦法,相關(guān)的工作見文獻(xiàn)[10-11]。

        3) 移動(dòng)社交網(wǎng)絡(luò)中位置信息與社交圖譜的關(guān)系。移動(dòng)社交網(wǎng)絡(luò)除了協(xié)助其用戶維護(hù)和其他用戶的社交連接之外,其一大特色就是用戶原創(chuàng)內(nèi)容中有很多會(huì)和位置信息相關(guān)。LBSN會(huì)記錄每個(gè)用戶的實(shí)時(shí)位置,以及歷史位置信息的匯總。這些信息的引入,將會(huì)對(duì)用戶的交互、乃至整個(gè)社交圖譜的結(jié)構(gòu),產(chǎn)生實(shí)質(zhì)性的影響。相關(guān)的工作參見文獻(xiàn)[12-13]。

        4) 移動(dòng)社交網(wǎng)絡(luò)的位置推薦。移動(dòng)社交網(wǎng)絡(luò)不僅能夠記錄用戶之間的互聯(lián)情況,更保存了大量用戶的歷史性位置信息,因此可以用于對(duì)用戶的出行做個(gè)性化的位置推薦,相關(guān)的工作參見文獻(xiàn)[14-15]。

        以上的這些工作涉及到了LBSN研究的多個(gè)方面,一般來說,利用互聯(lián)網(wǎng)測量來獲取用戶真實(shí)數(shù)據(jù),并進(jìn)行建模分析的方式是目前對(duì)移動(dòng)社交網(wǎng)絡(luò)進(jìn)行深入了解的通用方法。

        2 位置社交網(wǎng)絡(luò)的數(shù)據(jù)采集

        2.1 引 言

        本節(jié)首先介紹與位置有關(guān)的用戶評(píng)論內(nèi)容是如何在大眾點(diǎn)評(píng)上呈現(xiàn)的,基于這些數(shù)據(jù)的分布,我們采取相應(yīng)的爬蟲策略來獲取相關(guān)數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行有效的存儲(chǔ)。

        2.2 數(shù)據(jù)介紹

        在大眾點(diǎn)評(píng)網(wǎng)上,位置信息是以“商家”的形式呈現(xiàn)的,所有的用戶評(píng)論內(nèi)容都是與一個(gè)具體的商家相關(guān)的。為了便于介紹,我們隨機(jī)選擇一家商家,展示下圍繞著商家的用戶評(píng)論內(nèi)容的分布。

        圖1展示了大眾點(diǎn)評(píng)中部分用戶原創(chuàng)內(nèi)容的截圖,從圖中我們可以看到,用戶的評(píng)論內(nèi)容包含了商家名、用戶名、評(píng)論類型、用戶打分、用戶評(píng)論內(nèi)容和具體評(píng)論日期等信息。

        圖1 大眾點(diǎn)評(píng)用戶評(píng)論內(nèi)容截圖

        2.3 數(shù)據(jù)采集

        根據(jù)前面對(duì)數(shù)據(jù)集的介紹,我們大致了解了大眾點(diǎn)評(píng)上用戶評(píng)論的特點(diǎn)。在本節(jié)中,我們將介紹如何通過爬蟲來實(shí)現(xiàn)大規(guī)模的用戶評(píng)論數(shù)據(jù)采集。大眾點(diǎn)評(píng)有超過兩千萬的商家,由于時(shí)間的限制,我們需要以一種無偏抽樣的方式采集到具有較大規(guī)模并且有代表性的商家數(shù)據(jù),使得我們獲得的數(shù)據(jù)子集能夠反映整個(gè)點(diǎn)評(píng)數(shù)據(jù)集的特征規(guī)律。在我們的前期工作[16]中,我們已經(jīng)記錄下了506 004個(gè)在2015年8月12日之前注冊(cè)的商家ID,并保證這些ID是均勻分布的。該文基于這些ID,對(duì)商戶信息從多角度進(jìn)行了分析,但沒有關(guān)注評(píng)論的具體內(nèi)容和所體現(xiàn)的相應(yīng)的用戶的情感。在本文工作中,我們將基于這些ID,對(duì)用戶發(fā)布的所有評(píng)論的內(nèi)容進(jìn)行分布式采集。

        如何高效地爬取大眾點(diǎn)評(píng)上的數(shù)據(jù),我們面臨著以下兩個(gè)個(gè)挑戰(zhàn):

        1) 大眾點(diǎn)評(píng)有一套非常嚴(yán)格的IP地址限速機(jī)制,傳統(tǒng)的爬蟲庫,例如httplib2,urllib等由于是直接爬取網(wǎng)頁的源代碼,其行為特征和正常用戶有較大區(qū)別,往往會(huì)很容易被社交網(wǎng)絡(luò)服務(wù)器所發(fā)現(xiàn),并導(dǎo)致IP地址被封禁。我們面臨的挑戰(zhàn)是如何在保證爬蟲速度的同時(shí),能夠獲取海量的數(shù)據(jù)集。

        2) 大眾點(diǎn)評(píng)本身并沒有提供相應(yīng)的API來供研究人員對(duì)數(shù)據(jù)進(jìn)行獲取。為了獲取大規(guī)模的數(shù)據(jù)集,我們?cè)O(shè)計(jì)的網(wǎng)頁爬蟲必須能夠模擬真實(shí)用戶訪問這些頁面的情況。

        為了保證在IP不被屏蔽的情況下盡可能地提升爬蟲的效率,我們從兩方面入手。首先,我們采用了分布式的爬蟲框架。在微軟云平臺(tái)上部署了45臺(tái)虛擬機(jī),每臺(tái)虛擬機(jī)都有一個(gè)外網(wǎng)IP地址,這樣的爬蟲策略使得數(shù)據(jù)采集效率遠(yuǎn)高于只在一臺(tái)機(jī)器上進(jìn)行數(shù)據(jù)采集。然后,為了保證爬蟲代碼在經(jīng)過長時(shí)間運(yùn)行后仍能正常工作,采用了Python的Selenium庫來實(shí)現(xiàn)數(shù)據(jù)采集過程。通過自動(dòng)化測試工具Selenium和瀏覽器Firefox的配合,可以把爬蟲的過程模擬成用戶瀏覽網(wǎng)頁的過程,這在很大程度上避免了服務(wù)器端的速率限制。

        基于文獻(xiàn)[16]獲取到的無偏抽樣的商家ID,我們采用Python編寫新的爬蟲代碼,利用45臺(tái)云服務(wù)器組成分布式數(shù)據(jù)獲取平臺(tái),進(jìn)行商家評(píng)論內(nèi)容的采集,整個(gè)爬蟲的框架如圖2所示。

        圖2 云爬蟲框架示意圖

        在每臺(tái)云服務(wù)器內(nèi)部,具體的爬蟲流程如圖3所示。圖3左邊是云端服務(wù)器的整體工作流程,首先,我們需要對(duì)機(jī)器的工作環(huán)境進(jìn)行相應(yīng)的配置,包括安裝相應(yīng)的Python庫、Firefox和XServer。在環(huán)境搭建完成后,我們周期性地運(yùn)行相應(yīng)的爬蟲程序,來采集商家的用戶評(píng)論數(shù)據(jù)集,對(duì)于每個(gè)周期內(nèi)產(chǎn)生的數(shù)據(jù)集,進(jìn)行打包整理,并清理不再需要的文件,便于下一周期的爬蟲。圖3右邊是周期內(nèi)具體的爬蟲過程,首先指定該周期內(nèi)需要采集的商家數(shù)量N,在一次采集過程中,先獲取到商家ID,那么該商家的用戶評(píng)論數(shù)據(jù)URL地址為:http://www.dianping.com/shop/{ID}/review_more?pageno={x},其中x是評(píng)論的頁數(shù)。通過該URL地址,我們可以采集到該商家的所有用戶評(píng)論內(nèi)容。

        圖3 爬蟲流程圖

        2.4 數(shù)據(jù)存儲(chǔ)

        在完成了對(duì)商家數(shù)據(jù)的采集工作后,我們需要對(duì)獲得的數(shù)據(jù)進(jìn)行進(jìn)一步的處理,以便開展后續(xù)的分析工作。接下來,將介紹如何對(duì)本地存放的幾十萬個(gè)文本文件進(jìn)行處理,提取其中的信息進(jìn)行有效地存儲(chǔ)。

        首先在爬蟲時(shí),考慮到后續(xù)需要對(duì)數(shù)據(jù)進(jìn)行處理,設(shè)置每個(gè)文本文件內(nèi)存放的商家數(shù)據(jù)都是按照J(rèn)SON格式存放的。選取JSON作為數(shù)據(jù)的編碼方式,主要是因?yàn)镴SON是一種輕量級(jí)的數(shù)據(jù)交換格式,易于機(jī)器的解析和生成[17]。以ID為21 865 211的商家為例,我們抓取的該商家的用戶評(píng)論內(nèi)容如下所示。

        {

        "shopid": "21865211",

        "allreviews": {

        "default_numbers": 4905,

        "default_info": [

        {

        "type": "tuan",

        "date": "2015-03-25",

        "user_id": "7604638",

        "content": "食材新鮮地道服務(wù)員很nice"

        },

        ]

        }

        }

        以商家ID為標(biāo)示,獲取了每個(gè)商家的用戶評(píng)論內(nèi)容,具體的字段含義如表1所示。

        表1 商家數(shù)據(jù)集的字段說明

        表1中解釋了采集到的數(shù)據(jù)內(nèi)容,為了更好地對(duì)數(shù)據(jù)進(jìn)行管理,按照字段說明,將txt中的數(shù)據(jù)導(dǎo)入到MySQL中進(jìn)行存儲(chǔ)。之所以選擇MySQL來存儲(chǔ)商家數(shù)據(jù)集,是因?yàn)镸ySQL是一種輕量級(jí)的關(guān)系型數(shù)據(jù)庫管理系統(tǒng),通過MySQL,我們能夠更快捷、更靈活地讀取數(shù)據(jù)[18]。本文的本地工作環(huán)境是Mac OS X v10.11,數(shù)據(jù)庫版本是MySQL 5.1.63社區(qū)版,編程語言是Python。為了更好地管理數(shù)據(jù)庫,我們使用了Sequel Pro,Sequel Pro是一款在Mac OSX平臺(tái)上的數(shù)據(jù)庫管理應(yīng)用程序,經(jīng)過一定的配置,就可以通過Sequel Pro以圖形化的界面來管理MySQL中的數(shù)據(jù)庫[19]。在用Python導(dǎo)入數(shù)據(jù)時(shí),使用了Python中的MySQLdb模塊,這是Python用來連接MySQL的接口。

        利用前面描述的云爬蟲框架和無偏抽樣的商家ID,從2016年3月2日到2016年3月10日,我們采集了506 004個(gè)商家的用戶評(píng)論內(nèi)容。根據(jù)我們的測量結(jié)果,大部分的商家是沒有用戶評(píng)論內(nèi)容的,只有16.26%的商家擁有至少一個(gè)用戶評(píng)論。最終,我們采集到了3 510 122條用戶評(píng)論,分布在82 279個(gè)商家中。

        3 位置社交網(wǎng)絡(luò)的語義分析

        3.1 引 言

        在線社交網(wǎng)絡(luò)一個(gè)重要的功能就是用戶能夠在線表達(dá)自己的主觀性信息,我們認(rèn)為,與一般的打分機(jī)制相比,用戶評(píng)論的文本內(nèi)容往往能夠更加準(zhǔn)確地反映出用戶的態(tài)度。因此,在本節(jié)中,將具體分析每個(gè)商家的用戶評(píng)論內(nèi)容。與評(píng)價(jià)打分不同的是,評(píng)論能夠更加具體地反映出用戶對(duì)商家的各種情感色彩和感情傾向。本節(jié)希望通過對(duì)商家中用戶評(píng)論信息的挖掘,對(duì)用戶的主觀性信息進(jìn)行提取、分析和歸納,從而發(fā)現(xiàn)影響用戶的情感態(tài)度產(chǎn)生變化的因素。

        一般來說,可以將用戶的情感傾向分為“支持”、“中立”和“反對(duì)”三種。當(dāng)然,如果需要考察用戶的情感傾向程度,比如說用戶對(duì)某一商家喜歡到了什么程度,這就需要通過更加細(xì)致的打分機(jī)制來描述用戶的情感態(tài)度。用1代表用戶對(duì)商家是完全支持,0表示用戶對(duì)商家完全否定,那么0~1這個(gè)區(qū)間內(nèi)的各個(gè)數(shù)值就表示了用戶的情感態(tài)度分值,0.5分表示了用戶對(duì)商家持中立態(tài)度。在本文中,我們使用了SnowNLP來對(duì)大眾點(diǎn)評(píng)中的用戶評(píng)論內(nèi)容進(jìn)行簡單的情感分析。SnowNLP是一個(gè)基于Python的開源的自然語言處理工具箱,可以方便地處理中文文本內(nèi)容[20]。

        3.2 情感分值的分布規(guī)律

        圖4 評(píng)論數(shù)量隨情感分值變化的CDF圖

        首先探討下用戶評(píng)論數(shù)量隨情感分值的變化情況。圖4是評(píng)論數(shù)量隨著情感分值變化的累積分布函數(shù)CDF(Cumulative Distribution Function)圖,其中,x軸是情感分值,y軸是情感分值小于當(dāng)前值的用戶評(píng)論數(shù)量在所有評(píng)論數(shù)量中所占的比例。從圖4中我們可以看到,對(duì)于商家來說,大部分的用戶評(píng)論是正面的,有69.91% 的用戶發(fā)表了正面的評(píng)論。另外,從整體上來看,超過50%的用戶發(fā)表的評(píng)論情感分值大于0.9。以上的兩點(diǎn)發(fā)現(xiàn)從整體上說明了,商家收到的大部分評(píng)論都是正面的。進(jìn)一步分析,如果考慮到評(píng)論的類型,發(fā)現(xiàn)用戶在商家的評(píng)論一般分為默認(rèn)點(diǎn)評(píng)和團(tuán)購點(diǎn)評(píng),所謂的默認(rèn)點(diǎn)評(píng)就是用戶前去商家正常消費(fèi),然后發(fā)表相應(yīng)的評(píng)論,而與之相對(duì)的團(tuán)購點(diǎn)評(píng)是用戶通過購買團(tuán)購券前去商家消費(fèi),然后留下的評(píng)論。兩者的區(qū)別主要就是用戶消費(fèi)方式的不同,一般來說,團(tuán)購消費(fèi)對(duì)于用戶而言往往意味著更加實(shí)惠,通常能夠吸引大量的用戶。為了探討團(tuán)購消費(fèi)后的用戶情感態(tài)度與正常消費(fèi)后的區(qū)別,計(jì)算了兩種消費(fèi)模式下“支持”和“反對(duì)”的比例,以及各自的平均情感分值,如表2所示。從表2中可以看到,不論是對(duì)于默認(rèn)點(diǎn)評(píng)還是團(tuán)購點(diǎn)評(píng),其正面評(píng)價(jià)的比例都占據(jù)了大多數(shù),其中,相比較而言,用戶在使用了團(tuán)購之后,更傾向于給予商家正面的評(píng)價(jià)。另外,就平均情感分值而言,使用團(tuán)購消費(fèi)的用戶,其情感態(tài)度更加積極正面。

        表2 評(píng)論類型與情感態(tài)度

        3.3 評(píng)論長度與情感分值的關(guān)系

        接下來,探討用戶的情感態(tài)度變化與其對(duì)商家的評(píng)論內(nèi)容長度之間的關(guān)系。在上文中我們發(fā)現(xiàn),商家的大部分評(píng)論都是正面的,但存在的問題是并不是所有的用戶評(píng)論都是真實(shí)有效的,我們希望從最簡單的用戶評(píng)論長度來辨別用戶評(píng)論的真實(shí)性。在圖5中,我們可以發(fā)現(xiàn),從整體上來看,評(píng)論內(nèi)容越長,用戶對(duì)商家的評(píng)價(jià)分值越低。直觀上來說,這是由于用戶寫的東西越多,他想借此表達(dá)的情感也越豐富,所以當(dāng)評(píng)論內(nèi)容到達(dá)幾百字時(shí),往往評(píng)論的分值不會(huì)太高。從另一方面來講,可以觀察到當(dāng)評(píng)論內(nèi)容的長度在起始點(diǎn),即15~17字左右時(shí),用戶對(duì)商家的態(tài)度是最積極的。這是由于大眾點(diǎn)評(píng)的規(guī)定是用戶對(duì)商家的評(píng)論內(nèi)容長度至少為15字,而許多商家在用戶去店里消費(fèi)時(shí),會(huì)讓用戶選擇發(fā)表積極正面的評(píng)論來獲取一定的優(yōu)惠,大部分用戶會(huì)快速地發(fā)完15字的好評(píng)來獲取獎(jiǎng)勵(lì)。從全體用戶的整體利益上來講,雖然單用戶此次消費(fèi)獲得了優(yōu)惠,但會(huì)誤導(dǎo)其他的用戶對(duì)商家的判斷。通過對(duì)用戶評(píng)論內(nèi)容的進(jìn)一步挖掘,我們發(fā)現(xiàn)在大眾點(diǎn)評(píng)中,平均用戶評(píng)論長度為63,這恰巧是圖5中評(píng)論分值對(duì)應(yīng)的一個(gè)峰值。

        圖5 用戶情感態(tài)度隨評(píng)論內(nèi)容長度的變化

        同樣的,當(dāng)考慮到評(píng)論類型時(shí),發(fā)現(xiàn)不同消費(fèi)類型的用戶的情感態(tài)度隨評(píng)論內(nèi)容長度的變化規(guī)律與圖5中所描述的規(guī)律類似,兩者都是隨著評(píng)論內(nèi)容長度的增加,情感態(tài)度值在整體上下降,如圖6、圖7所示。不同的是,當(dāng)評(píng)論內(nèi)容的長度增加時(shí),團(tuán)購點(diǎn)評(píng)的情感態(tài)度分值變得更加混亂,起伏比較大,而默認(rèn)點(diǎn)評(píng)的情感分值起伏較小。

        圖6 用戶情感態(tài)度隨默認(rèn)評(píng)論內(nèi)容長度的變化情況

        圖7 用戶情感態(tài)度隨團(tuán)購評(píng)論內(nèi)容長度的變化情況

        3.4 評(píng)論關(guān)鍵詞與情感分值的關(guān)系

        接下來我們希望通過分析評(píng)論的具體內(nèi)容來理解用戶的情感態(tài)度。通過前面對(duì)用戶情感態(tài)度分值的介紹,知道當(dāng)分值為0時(shí),用戶的情感態(tài)度最消極,而當(dāng)分值為1時(shí),用戶的情感態(tài)度是最積極的。為了對(duì)比兩者的不同,從商家評(píng)論數(shù)據(jù)集中選取情感值分別為0和1的評(píng)論,通過SnowNLP來提取每條評(píng)論的關(guān)鍵詞。

        圖8和圖9用詞云的形式形象表達(dá)了用戶在對(duì)商家的態(tài)度不同時(shí)關(guān)鍵詞的不同分布,其中,關(guān)鍵詞出現(xiàn)的次數(shù)越多,其字號(hào)越大。圖8展示的是53 953條用戶正面評(píng)論的關(guān)鍵詞分布,我們可以看到,當(dāng)用戶對(duì)商家滿意時(shí),出現(xiàn)最多的詞包括“不錯(cuò)”、“喜歡”和“好”等等,這些都是一些積極的詞匯。圖9展示的是用戶對(duì)商家極度不滿意時(shí)的評(píng)論關(guān)鍵詞,我們從53 265條負(fù)面評(píng)論中提取出這些關(guān)鍵詞。從圖9中我們可以看到,“服務(wù)員”、“態(tài)度”、“服務(wù)”和“味道”等成為了用戶最不滿意的地方。對(duì)比兩者,我們可以發(fā)現(xiàn),當(dāng)用戶對(duì)商家滿意時(shí),發(fā)表的評(píng)論內(nèi)容更加傾向于描述自己的正面情感,表達(dá)對(duì)商家的滿意程度,關(guān)鍵詞多為形容詞;而當(dāng)用戶對(duì)商家不滿意時(shí),發(fā)表的評(píng)論內(nèi)容更加傾向于強(qiáng)調(diào)自己不滿意的細(xì)節(jié),關(guān)鍵詞多為名詞。

        圖8 用戶正面情感關(guān)鍵詞分布

        圖9 用戶負(fù)面情感關(guān)鍵詞分布

        4 結(jié) 語

        本文選取了目前中國最熱門的消費(fèi)點(diǎn)評(píng)類的LBSN網(wǎng)站——大眾點(diǎn)評(píng),以位置為中心,對(duì)商家的評(píng)論內(nèi)容進(jìn)行研究分析。首先,為了獲取大量的數(shù)據(jù)集,通過對(duì)大眾點(diǎn)評(píng)網(wǎng)站的調(diào)研、分析來編寫爬蟲代碼,通過網(wǎng)絡(luò)測量的方式來獲取大眾點(diǎn)評(píng)網(wǎng)的商家評(píng)論數(shù)據(jù)。為了提升獲取數(shù)據(jù)的速度和數(shù)量,在微軟云上的45臺(tái)云服務(wù)器中部署了我們的爬蟲代碼,實(shí)現(xiàn)了分布式的爬蟲框架。

        為了數(shù)據(jù)存儲(chǔ)的高效性,采用了MySQL來存儲(chǔ)獲取到的商家數(shù)據(jù)集。設(shè)計(jì)了數(shù)據(jù)表來涵蓋商家的評(píng)論內(nèi)容數(shù)據(jù)集,最終,整理后的數(shù)據(jù)集占據(jù)了大概745 MB的空間,包含了82 279個(gè)商家,3 510 122條用戶評(píng)論。

        基于獲取的大量數(shù)據(jù),通過對(duì)評(píng)論內(nèi)容的分析,挖掘影響用戶情感態(tài)度變化的因素。首先,發(fā)現(xiàn)對(duì)于大部分的商家而言,用戶的評(píng)論都是正面的,只有不到三分之一的用戶評(píng)論是負(fù)面的。 另外,團(tuán)購消費(fèi)的用戶情感態(tài)度分值一般高于正常消費(fèi)的用戶。然后,研究了用戶的情感分值隨評(píng)論內(nèi)容長度的變化規(guī)律,從整體上來看,用戶的評(píng)論內(nèi)容長度越長,其情感分值越低。最后,提取了用戶評(píng)論的關(guān)鍵詞,這在某種程度上也代表了用戶的情感態(tài)度,不同態(tài)度的用戶評(píng)論,其關(guān)鍵詞的分布也有很大的不同。

        [1] The 2015 U.S.Mobile App Report[EB/OL].https://www.comscore.com/Insights/Presentations-and-Whitepapers/2015

        /The-2015-US-Mobile-App-Report.

        [2] 預(yù)計(jì)2011年美國UGC廣告收入將達(dá)43億美元[EB/OL].http://www.cnad.com/html/Article/2007/0725/20070725105901704.html.

        [3] Ye M, Janowicz K, Mülligann C, et al. What you are is when you are: the temporal dimension of feature types in location-based social networks[C]//Proceedings of the 19th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. ACM, 2011:102-111.

        [4] Ballesteros J, Carbunar B, Rahman M, et al. Yelp Events: Making Bricks Without Clay? [C]//Distributed Computing Systems Workshops (ICDCSW), 2013 IEEE 33rd International Conference on. IEEE,2013:156-161.

        [5] Allamanis M, Scellato S, Mascolo C. Evolution of a location-based online social network: analysis and models[C]//Proceedings of the 2012 ACM conference on Internet measurement conference. ACM, 2012:145-158.

        [6] DIANPING: THE EVOLUTIONS OF CHINA’S LOCATION-BASED REVIEWS GIANT[EB/OL].http://www.digitalintheround.com/china-location-based-marketing-dianping/.

        [7] Alexa Traffic Ranks of dianping.com[EB/OL].http://www.alexa.com/siteinfo/dianping.com.

        [8] Noulas A, Scellato S, Mascolo C, et al. An Empirical Study of Geographic User Activity Patterns in Foursquare [C]// Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media (ICWSM), 2011:570-573.

        [9] 李敏, 王曉聰, 張軍,等. 基于位置的社交網(wǎng)絡(luò)用戶簽到及相關(guān)行為研究[J]. 計(jì)算機(jī)科學(xué), 2013,40(10):72-76.

        [10] He W, Liu X, Ren M. Location cheating: A security challenge to location-based social network services[C]//Distributed computing systems (ICDCS), 2011 31st international conference on. IEEE, 2011:740-749.

        [11] 談嶸, 顧君忠, 楊靜, 等. 移動(dòng)社交網(wǎng)絡(luò)中的隱私設(shè)計(jì)[J]. Journal of Software, 2010,21(S):298-309.

        [12] Scellato S, Noulas A, Lambiotte R, et al. Socio-Spatial Properties of Online Location-Based Social Networks[C]//Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media (ICWSM),2011:329-336.

        [13] 劉艷, 潘善亮. 基于LBSN好友關(guān)系的個(gè)性化景點(diǎn)推薦方法[J].計(jì)算機(jī)工程與應(yīng)用, 2015, 51(8):117-122.

        [14] 屈弘揚(yáng), 於志文, 田苗,等. 基于LBSN的商業(yè)選址推薦系統(tǒng)的研究與實(shí)現(xiàn)[J]. 計(jì)算機(jī)科學(xué), 2015,42(9):33-36.

        [15] Yang D, Zhang D, Yu Z, et al. A sentiment-enhanced personalized location recommendation system[C]//Proceedings of the 24th ACM Conference on Hypertext and Social Media. ACM,2013:119-128.

        [16] Huang Y, Chen Y, Zhou Q, et al. Where Are We Visiting? Measurement and Analysis of Venues in Dianping[C]//2016 IEEE International Conference on Communications (ICC),2016.

        [17] Introducing JSON[EB/OL]. http://www.json.org/.

        [18] MySQL [EB/OL]. http://www.mysql.com.

        [19] Sequel Pro [EB/OL]. http://www.sequelpro.com.

        [20] Guan X, Yang Y, Yang X, et al. Dirichlet Process Mixture Model for Summarizing the Social Web[M].Social Media Processing. Springer Singapore,2015.

        SEMANTIC ANALYSIS OF BUSINESS DATA IN LOCATION-BASED SOCIAL NETWORK

        Huang Yue He Xinlei Chen Yang Zhao Jin

        (SchoolofComputerScience,FudanUniversity,Shanghai201203,China) (EngineeringResearchCenterofCyberSecurityAuditingandMonitoring,MinistryofEducation,Shanghai201203,China)

        In recent years, “mobile” and “social” to promote the development of the Internet has become the two key technologies. Under these two technologies, location-based social network (LBSN) have developed rapidly, attracting a large number of users on a global scale, both academia and industry are investing heavily in LBSN research. LBSN sites are location-centric, meaning that any user-generated content, such as sign-in or comment, must be associated with a specific location. Although location information plays an important role in LBSN, the research on LBSN at home and abroad is mainly from the user point of view, the lack of research from the perspective of location. At the same time, the analysis of original user content in LBSN is lack of analysis of text information. The author makes a large-scale data collection on the content of the business comment on the popular online commentary social network-Dianping, and carries out semantic analysis on the large amount of user comment text.

        Location-based social network Position angle User-generated content Sentiment analysis

        2016-04-23。上海市自然科學(xué)基金項(xiàng)目(16ZR1402200)。黃岳,碩士生,主研領(lǐng)域:社交網(wǎng)絡(luò)。何新磊,本科生。陳陽,副研究員。趙進(jìn),副教授。

        TP3

        A

        10.3969/j.issn.1000-386x.2017.05.014

        猜你喜歡
        情感內(nèi)容用戶
        內(nèi)容回顧溫故知新
        如何在情感中自我成長,保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        如何在情感中自我成長,保持獨(dú)立
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        主要內(nèi)容
        臺(tái)聲(2016年2期)2016-09-16 01:06:53
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        如何獲取一億海外用戶
        一区二区三区四区亚洲综合| 熟妇人妻av中文字幕老熟妇| 人人做人人妻人人精| 国产九九在线观看播放| 国产高清在线精品一区不卡 | 香蕉久久福利院| 欧美日韩国产亚洲一区二区三区| 国内精品久久人妻性色av| 美女很黄很色国产av | 日本老熟欧美老熟妇| 亚欧免费视频一区二区三区| 一区二区三区在线乱码| 欧美颜射内射中出口爆在线| 天堂8中文在线最新版在线| 最新国产精品亚洲二区| 日本免费三片在线视频| 人妻体内射精一区二区三区| 少妇高潮潮喷到猛进猛出小说| 亚洲成av人在线观看无堂无码 | 欧美一区二区三区视频在线观看| 久久无码人妻一区二区三区午夜 | 777精品出轨人妻国产| 亚洲av中文无码字幕色三| 久久国产精品老人性| 久久婷婷国产五月综合色| 日本一二三四高清在线| 中文字幕丰满乱子无码视频| 九九在线视频| 色老板在线免费观看视频日麻批| 人人妻人人澡人人爽欧美一区| 18禁裸男晨勃露j毛免费观看| 亚洲欧美日韩中文v在线| 亚洲人成伊人成综合网中文| 亚洲精品午夜久久久九九| 熟妇丰满多毛的大隂户| 在线无码国产精品亚洲а∨| 亚洲中文字幕一区av| 久久亚洲av成人无码电影a片| 欧美日本日韩aⅴ在线视频| 亚洲一区精品一区在线观看| 国产情侣自拍一区视频|