何愉、衛(wèi)陳泉、陸鈺華
(國(guó)家統(tǒng)計(jì)局上海調(diào)查總隊(duì),上海 200003)
基于深度神經(jīng)網(wǎng)絡(luò)與主題模型的文本情感分析
——以上海迪斯尼景區(qū)游客滿意度調(diào)查為例
何愉、衛(wèi)陳泉、陸鈺華
(國(guó)家統(tǒng)計(jì)局上海調(diào)查總隊(duì),上海 200003)
本文嘗試以上海迪斯尼景區(qū)的網(wǎng)絡(luò)評(píng)價(jià)數(shù)據(jù)為例,通過(guò)深度神經(jīng)網(wǎng)絡(luò)和主題模型開展文本情感分析。在完成網(wǎng)絡(luò)數(shù)據(jù)爬取、基于隱馬爾可夫(HMM)模型的中文分詞、向量空間(VSM)模型將文本轉(zhuǎn)向量等一系列數(shù)據(jù)源和數(shù)據(jù)預(yù)處理工作后,通過(guò)機(jī)器學(xué)習(xí)中的多層感知器(MLP)神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,并構(gòu)建主題模型。本文將大數(shù)據(jù)的開發(fā)與當(dāng)前的統(tǒng)計(jì)調(diào)查有機(jī)結(jié)合,探索一條對(duì)社會(huì)各領(lǐng)域評(píng)價(jià)調(diào)查具有可復(fù)制可推廣的大數(shù)據(jù)調(diào)查模式。
文本挖掘;神經(jīng)網(wǎng)絡(luò);主題模型;情感分析;VSM模型
隨著社會(huì)和科技的發(fā)展,尤其是在當(dāng)前大數(shù)據(jù)研究應(yīng)用的背景下,傳統(tǒng)調(diào)查受限于時(shí)間和空間,調(diào)查效率相對(duì)偏低,調(diào)查數(shù)據(jù)質(zhì)量控制難度和成本不斷增加,調(diào)查數(shù)據(jù)的時(shí)效性相對(duì)偏弱等不足進(jìn)一步顯現(xiàn)。大數(shù)據(jù)時(shí)代的來(lái)臨,為我們提供了全新的獲取數(shù)據(jù)的渠道,也為我們創(chuàng)新調(diào)查方式,更加快捷、高效、科學(xué)地評(píng)估用戶滿意度水平提供了一種可能。
本文嘗試以上海迪斯尼景區(qū)的網(wǎng)絡(luò)文本評(píng)價(jià)為例,通過(guò)深度神經(jīng)網(wǎng)絡(luò)和主題模型開展文本情感分析。當(dāng)前傳統(tǒng)的滿意度調(diào)查主要通過(guò)問(wèn)卷調(diào)查的方式開展,通過(guò)瀏覽網(wǎng)站不難發(fā)現(xiàn),網(wǎng)絡(luò)評(píng)價(jià)分為定量評(píng)價(jià)(如打分、標(biāo)星)和定性評(píng)價(jià)(如文字描述)兩種。然而面對(duì)大數(shù)據(jù),我們也會(huì)心生疑惑和忐忑,大數(shù)據(jù)的內(nèi)部結(jié)構(gòu)難以全面把握甚至不得而知,大數(shù)據(jù)的數(shù)據(jù)質(zhì)量參差不齊也無(wú)從考究,大數(shù)據(jù)的應(yīng)用結(jié)果缺乏驗(yàn)證和評(píng)估,因此如何應(yīng)用好大數(shù)據(jù),挖掘出紛繁復(fù)雜,雜亂無(wú)章的大數(shù)據(jù)背后暗藏的規(guī)律,如何將大數(shù)據(jù)的開發(fā)與當(dāng)前的統(tǒng)計(jì)調(diào)查有機(jī)結(jié)合,成為有益的補(bǔ)充和替代;探索一條對(duì)社會(huì)各領(lǐng)域評(píng)價(jià)調(diào)查具有可復(fù)制可推廣的大數(shù)據(jù)調(diào)查模式,是我們研究的初衷和出發(fā)點(diǎn)。
課題研究將通過(guò)完成以下三大目標(biāo),實(shí)現(xiàn)建模初衷。1.綜合運(yùn)用HMM分詞模型、VSM模型、MLP神經(jīng)網(wǎng)絡(luò)以及LDA主題模型,創(chuàng)新滿意度調(diào)查方式;2.將定性文字轉(zhuǎn)為定量評(píng)價(jià),提高文本數(shù)據(jù)的挖掘分析能力;3.加深對(duì)大數(shù)據(jù)內(nèi)部維度結(jié)構(gòu)的認(rèn)知,更加細(xì)化對(duì)文本數(shù)據(jù)的挖掘等方面,開展積極地嘗試和探索。
(一)數(shù)據(jù)獲取
運(yùn)用網(wǎng)絡(luò)爬蟲技術(shù),從攜程網(wǎng)、大眾點(diǎn)評(píng)、貓途鷹等旅游網(wǎng)站上獲得游客對(duì)香港迪斯尼、上海迪斯尼等景點(diǎn)的網(wǎng)絡(luò)評(píng)價(jià),包括評(píng)論時(shí)間、文本評(píng)論、滿意度評(píng)價(jià)及相關(guān)用戶信息。
(二)數(shù)據(jù)預(yù)處理
經(jīng)過(guò)文本預(yù)處理,建立只有評(píng)論內(nèi)容的文本數(shù)據(jù)庫(kù);基于隱馬爾可夫模型(HMM),通過(guò)公共詞庫(kù)、停用詞詞庫(kù)和自定義詞庫(kù)進(jìn)行中文分詞,經(jīng)過(guò)多次迭代和詞庫(kù)更新,形成最終分詞結(jié)果。最后通過(guò)向量空間模型(VSM),將分詞完畢的文本,轉(zhuǎn)化為文本向量,存入文本向量庫(kù)。
(三)建模(模型訓(xùn)練和比較)
首先MLP建模。通過(guò)機(jī)器學(xué)習(xí)中的多層感知器神經(jīng)網(wǎng)絡(luò)(MLP)進(jìn)行建模并評(píng)估結(jié)果,不斷的調(diào)整預(yù)測(cè)模型,直到預(yù)測(cè)結(jié)果達(dá)到預(yù)期準(zhǔn)確率。基于向量空間模型中的三種轉(zhuǎn)換方法,運(yùn)用多層感知器神經(jīng)網(wǎng)絡(luò)中的邏輯回歸(LR)和支持向量機(jī)(SVM)兩種算法進(jìn)行比較分析。其次構(gòu)建主題模型。通過(guò)LDA主題模型,對(duì)文本進(jìn)行潛語(yǔ)義分析,對(duì)潛在主題分類的相關(guān)特征的分析和甄別,確定相關(guān)主題。
(四)知識(shí)獲取
以上海迪斯尼景區(qū)的網(wǎng)絡(luò)評(píng)論滿意度為主要研究對(duì)象,比對(duì)世界各地迪斯尼景區(qū),從整體滿意度水平、二級(jí)評(píng)價(jià)主題差異和分項(xiàng)滿意度差異、滿意度隨時(shí)間趨勢(shì)變化等多角度進(jìn)行挖掘,加強(qiáng)對(duì)網(wǎng)絡(luò)評(píng)論文本的深度解讀,從而能夠更有針對(duì)性地對(duì)評(píng)論對(duì)象提出意見(jiàn)建議。
(一)軟件說(shuō)明:python語(yǔ)言
本課題運(yùn)用python語(yǔ)言編寫預(yù)處理和建模程序。
(二)數(shù)據(jù)來(lái)源:爬蟲獲取網(wǎng)絡(luò)評(píng)價(jià)
運(yùn)用網(wǎng)絡(luò)爬蟲技術(shù),從攜程網(wǎng)、大眾點(diǎn)評(píng)、貓途鷹等旅游網(wǎng)站上成功獲得逾六萬(wàn)條游客對(duì)香港迪斯尼、上海迪斯尼等景點(diǎn)的網(wǎng)絡(luò)評(píng)價(jià),包括評(píng)論時(shí)間、文本評(píng)論、滿意度評(píng)價(jià)以及用戶信息。其中部分文本評(píng)論用于神經(jīng)網(wǎng)絡(luò)建模的訓(xùn)練和測(cè)試;另外一部分文本評(píng)論用于模型機(jī)器打分(見(jiàn)表1)。進(jìn)行文本預(yù)處理,純化文本內(nèi)容,去除HTML標(biāo)記,形成只有評(píng)論內(nèi)容的純文本,并存入評(píng)論文本數(shù)據(jù)庫(kù)。
表1 課題數(shù)據(jù)源信息表
(三)訓(xùn)練語(yǔ)料評(píng)估:德?tīng)柗品ù_定語(yǔ)料噪音比例
隨機(jī)抽樣選取一定比例的訓(xùn)練語(yǔ)料,進(jìn)行人工背靠背打分,將打分結(jié)果和原始滿意度分值進(jìn)行比較,確定“噪點(diǎn)”(主客觀偏差較大的數(shù)據(jù))比例。若比例過(guò)高,則前期需增加對(duì)“噪點(diǎn)”語(yǔ)料的篩選和剔除;若比例較低,“噪點(diǎn)”語(yǔ)料不會(huì)影響后期機(jī)器學(xué)習(xí)效果,可直接運(yùn)用于下階段分析使用。通過(guò)背靠背打分,發(fā)現(xiàn)原始語(yǔ)料噪點(diǎn)比例為0.5%,可直接使用。
(四)文本分詞:運(yùn)用“隱馬爾可夫模型”對(duì)文本評(píng)價(jià)分詞
第一階段:初步分詞,運(yùn)用公用詞庫(kù)和自定義詞庫(kù)對(duì)評(píng)論文檔進(jìn)行分詞;
第二階段:去停用詞,停用詞主要為副詞和標(biāo)點(diǎn)等,去除一些在文本中常用的詞語(yǔ),比如“的”“嗎”等;合并數(shù)字和人名等詞匯;數(shù)字或者人名等詞匯在具體的分析過(guò)程中一般不會(huì)起到非常大的作用,人工將其去除;
第三階段:自定義詞庫(kù)更新,將每次分詞發(fā)現(xiàn)的新詞不斷加入自定義詞庫(kù)。經(jīng)過(guò)多次的迭代和詞庫(kù)的更新,形成最終的分詞結(jié)果(限于篇幅,此處省略)。
(五)向量空間(VSM):文本轉(zhuǎn)換為向量
情感分析利用神經(jīng)網(wǎng)絡(luò),將一條條分詞完畢的文本評(píng)價(jià)轉(zhuǎn)換為向量,這樣計(jì)算機(jī)才能夠讀取和學(xué)習(xí)。在轉(zhuǎn)換的過(guò)程中,列指標(biāo)即特征向量。特征提取指選取能夠表征目標(biāo)結(jié)構(gòu)的一種表示方法,進(jìn)而擁有分類和判決。本課題運(yùn)用VSM模型將一條分詞完畢的評(píng)論轉(zhuǎn)換為向量,具體分PVDM(Distributed Memory Model of Paragraph Vectors)和PV-DBOW(Distributed Bag of Words version of Paragraph Vector)兩種算法(見(jiàn)圖1)。相較于CBOW(從上下文推本詞)和skip-gram(從本文推上下文),VSM的方法在前者基礎(chǔ)上加入了段落標(biāo)志,從而能夠達(dá)到更好的分詞效果。DBOW、DM等向量空間模型,分詞中只需解決未登錄詞,無(wú)需刪除大量停用詞以及預(yù)先導(dǎo)入同義詞庫(kù),大大簡(jiǎn)化了分詞的難度。
具體操作:
步驟一:將每條分詞完畢的評(píng)論運(yùn)用PV-DM方法轉(zhuǎn)換為[1*200]的向量;
步驟二:將每條分詞完畢的評(píng)論運(yùn)用PV-DBOW方法轉(zhuǎn)換為[1*200]的向量;
步驟三:將上述兩種轉(zhuǎn)換方法得到的向量合并,構(gòu)造得出[1*400]的向量。
圖1 DM和DBOW的說(shuō)明
(一)思路框架
在建立模型的時(shí)候,本課題選用監(jiān)督式機(jī)器學(xué)習(xí)的算法。將模型預(yù)測(cè)結(jié)果與“訓(xùn)練數(shù)據(jù)”的實(shí)際結(jié)果進(jìn)行比較,不斷的調(diào)整模型,直到模型的預(yù)測(cè)結(jié)果達(dá)到一個(gè)預(yù)期的準(zhǔn)確率。本課題嘗試探索應(yīng)用多層感知器神經(jīng)網(wǎng)絡(luò),并使用多種目標(biāo)函數(shù)(邏輯回歸和支持向量機(jī)等)開展比較研究。
(二)主要步驟
1.數(shù)據(jù)建模
在前期文本轉(zhuǎn)換為向量的基礎(chǔ)上(dov2vec),運(yùn)用機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)(MLP)算法,構(gòu)建模型。在評(píng)分標(biāo)準(zhǔn)方面,二分法雖較簡(jiǎn)化,機(jī)器學(xué)習(xí)的判別也更簡(jiǎn)單,但也損失了部分信息?;诖?,課題組通過(guò)五分法,使機(jī)器學(xué)習(xí)能夠獲取更多信息,文本情緒層次進(jìn)一步得到細(xì)化,輸出結(jié)果可解讀性更強(qiáng)。
2.模型驗(yàn)證
采用隨機(jī)交叉驗(yàn)證。在所有用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的評(píng)論中,80%用于建模(含訓(xùn)練和評(píng)估),20%用來(lái)測(cè)試模型效果。在80%用于建模的評(píng)論中,采用隨機(jī)交叉驗(yàn)證法,其中80%用于訓(xùn)練模型,20%用于評(píng)估模型每一次迭代訓(xùn)練的收斂效果。
3.運(yùn)用兩種目標(biāo)函數(shù)(邏輯回歸和支持向量機(jī))
神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù),選擇邏輯回歸(categorical crossentropy)和支持向量機(jī)(hinge loss)進(jìn)行比較分析。
(三)神經(jīng)網(wǎng)絡(luò)建模的結(jié)果
在建模中分別使用邏輯回歸和支持向量機(jī)輸出的總體滿意度得分和預(yù)測(cè)準(zhǔn)確率見(jiàn)表2。兩種目標(biāo)函數(shù)分別對(duì)應(yīng)分布詞袋模型(DBOW)、分布記憶模型(DM)以及兩種方式的結(jié)合(DBOW+DM)等三種向量空間模型,進(jìn)行建模。從整體滿意度看,兩種方法得到的評(píng)分水平比較相近;在預(yù)測(cè)準(zhǔn)確率方面,邏輯回歸略高于支持向量機(jī),其中基于分布詞袋模型(DBOW)的邏輯回歸的準(zhǔn)確率最高,達(dá)0.489。
表2 兩種目標(biāo)函數(shù)建模結(jié)果比較
(一)LDA原理
由于神經(jīng)網(wǎng)絡(luò)模型輸出結(jié)果僅能反映整體評(píng)價(jià)情況,不能提供細(xì)致的深入發(fā)現(xiàn)和認(rèn)知,因此進(jìn)一步引入LDA主題模型,挖掘文檔集合中的重要主題。
LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),可以用來(lái)識(shí)別大規(guī)模文檔集(document collection)或語(yǔ)料庫(kù)(corpus)中潛藏的主題信息。LDA可以找到產(chǎn)生文本的最佳主題和詞匯,最大程度地表示文本中所蘊(yùn)含的含義,信息丟失較少,能夠較好地解決詞匯、主題和文本之間的語(yǔ)義關(guān)聯(lián)問(wèn)題。
該模型假設(shè):每個(gè)文本包含一定數(shù)量的隱含主題,每個(gè)主題包含特定的詞;文本和詞匯間的關(guān)系通過(guò)隱含主題體現(xiàn);文本到主題服從狄利克雷(Dirichlet)分布,主題到詞服從多項(xiàng)式分布。
(二)建模過(guò)程
對(duì)上海迪斯尼的評(píng)價(jià)文本按照標(biāo)點(diǎn)符號(hào)進(jìn)行分句,再進(jìn)行分詞處理,將得到的文檔輸入LDA模型。模型共設(shè)置20個(gè)分類,并在各分類中選取20個(gè)出現(xiàn)概率最高的關(guān)鍵詞,自迭代500次(限于篇幅,此處省略LDA主題分類和關(guān)鍵詞提取的輸出結(jié)果表)。
(三)建模結(jié)果
通過(guò)關(guān)鍵詞的解讀,分析該項(xiàng)分類的具體特征,確定相對(duì)應(yīng)的主題分類。在20個(gè)分類中,最終確定了15個(gè)分類,歸入餐飲、排隊(duì)時(shí)間、游玩設(shè)施、服務(wù)管理、游玩項(xiàng)目、交通、趣味性、園內(nèi)演出和購(gòu)物等9個(gè)主題;另外5個(gè)分類沒(méi)有明顯的含義,故未歸入任何主題。并通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)上述9個(gè)主題進(jìn)行文本情緒分析,即獲得相應(yīng)的滿意度水平(見(jiàn)圖2)。
圖2 邏輯回歸(DBOW)分項(xiàng)主題評(píng)分結(jié)果
(一)模型選擇
比較分別采用支持向量機(jī)和邏輯回歸作為目標(biāo)函數(shù)的神經(jīng)網(wǎng)絡(luò)模型輸出結(jié)果,分析其總體滿意度和分項(xiàng)主題滿意度打分的匹配度,我們可以發(fā)現(xiàn),采用邏輯回歸(DBOW)的方法得到的總體滿意度為3.83分,而分項(xiàng)主題的加權(quán)平均滿意度為3.96分,兩者差異(0.13分)最小。其他5種方法的各分項(xiàng)滿意度加權(quán)值均高于總體滿意度,差異介于0.19-0.47分之間,相對(duì)較大(見(jiàn)表3)。由此可見(jiàn),在神經(jīng)網(wǎng)絡(luò)建模過(guò)程中采用DBOW向量空間模型和邏輯回歸目標(biāo)函數(shù),輸出結(jié)果中總體和分項(xiàng)的匹配度更高,輸出結(jié)果更為合理。
表3 兩種目標(biāo)函數(shù)建模結(jié)果比較
(二)主題模型實(shí)證結(jié)論
通過(guò)主題模型和神經(jīng)網(wǎng)絡(luò)模型,分別對(duì)上海、香港、東京等迪士尼樂(lè)園的相關(guān)主題分項(xiàng)進(jìn)行滿意度打分(見(jiàn)表4)。
表4 分項(xiàng)主題滿意度評(píng)分結(jié)果
三大迪斯尼景區(qū)的游客對(duì)“趣味性”的滿意度水平較高,均列前三位;而游客對(duì)“餐飲”的滿意度水平普遍較低,上海和東京墊底,香港倒數(shù)第二。與香港和東京迪斯尼橫向比較,上海迪斯尼盡管在“交通”、“趣味性”和“游樂(lè)項(xiàng)目”等方面的滿意度水平較高,但仍存在以下薄弱環(huán)節(jié):一是“餐飲”,游客對(duì)園區(qū)餐飲的價(jià)格、菜品以及用餐環(huán)境等方面的滿意度較低;二是“排隊(duì)時(shí)間”,入園排隊(duì)以及項(xiàng)目排隊(duì)時(shí)間較長(zhǎng)對(duì)游客滿意度影響較大;三是“游玩設(shè)施”,尤其是在園區(qū)試運(yùn)行和開園次月中,游客對(duì)游玩設(shè)施的頻繁故障維修、設(shè)備檢修未及時(shí)告知等問(wèn)題產(chǎn)生一定的不滿情緒。因此,園區(qū)可集中針對(duì)上述當(dāng)前較為突出的三方面問(wèn)題,進(jìn)一步加以重視和改善,從而更有針對(duì)性、更快速地提升游客滿意度。
(一)可量化:將定性文字轉(zhuǎn)為滿意度定量評(píng)價(jià)
多層神經(jīng)網(wǎng)絡(luò)建模能夠?qū)包c(diǎn)的文本評(píng)論進(jìn)行情緒分析,從而客觀打分。通過(guò)不斷地加入新增的文字評(píng)論(即語(yǔ)料),機(jī)器學(xué)習(xí)的能力將不斷增強(qiáng),建模效果將不斷提升。機(jī)器學(xué)習(xí)將定性文字評(píng)價(jià)轉(zhuǎn)變?yōu)槎吭u(píng)估,從而更易于縱向和橫向比較,不斷深化數(shù)據(jù)挖掘和分析。以迪斯尼為例,基于大眾點(diǎn)評(píng)、攜程網(wǎng)等旅游網(wǎng)站關(guān)于香港迪斯尼樂(lè)園和上海迪斯尼樂(lè)園的文本評(píng)價(jià),得到上海迪斯尼的滿意度得分為3.83分,香港迪斯尼的滿意度得分為4.23分。
(二)可洞察:運(yùn)用主題模型認(rèn)知對(duì)象維度結(jié)構(gòu)
為了挖掘文檔集合中的重要主題,LDA主題模型被引入進(jìn)來(lái)。將5000多條有關(guān)上海迪斯尼的文本評(píng)價(jià)構(gòu)建出9大主題,并獲得相對(duì)應(yīng)的滿意度水平。課題研究分析表明,市民對(duì)游玩項(xiàng)目的關(guān)注度最高;對(duì)園區(qū)交通、趣味性的整體滿意度較高;對(duì)餐飲、排隊(duì)時(shí)間和游玩設(shè)施的滿意度相對(duì)偏低,有待改善。
(三)可時(shí)點(diǎn)化:突破調(diào)查時(shí)間和空間上的局限
課題研究除了能同時(shí)掌握上海、香港和東京等不同地區(qū)迪斯尼同一時(shí)間段內(nèi)的滿意度水平,還能掌握景區(qū)在不同時(shí)間段內(nèi)的滿意度水平變化。以上海迪斯尼為例,保留了評(píng)論時(shí)間這一數(shù)據(jù)標(biāo)簽,課題組以“周”作為時(shí)間劃分段,計(jì)算上海迪斯尼一段時(shí)間內(nèi)的時(shí)點(diǎn)數(shù)據(jù)。通過(guò)數(shù)據(jù)發(fā)現(xiàn),上海迪斯尼在試運(yùn)行期間的滿意度呈現(xiàn)下降態(tài)勢(shì);隨著園區(qū)正式開園,滿意度呈波動(dòng)上行態(tài)勢(shì);但開園次月后,滿意度呈現(xiàn)下降走勢(shì)。
進(jìn)一步分析分項(xiàng)主題滿意度的走勢(shì)(見(jiàn)圖3),可以發(fā)現(xiàn)游客對(duì)“交通”、“趣味性”等的滿意度評(píng)價(jià)較好且呈不斷上升趨勢(shì),對(duì)“餐飲”等的滿意度較低且基本呈下降趨勢(shì)。對(duì)于“排隊(duì)時(shí)間”、“購(gòu)物”的滿意度雖然較低,但是開園次月的滿意度比試運(yùn)行期和開園首月已有明顯改善;對(duì)“游玩項(xiàng)目”的滿意度雖較高,但開園次月的滿意度卻有一定下降。通過(guò)分項(xiàng)主題滿意度走勢(shì)分析,園區(qū)能夠更為精準(zhǔn)地發(fā)現(xiàn)影響整體滿意度水平變化的主要因素、對(duì)某方面的改進(jìn)措施是否起效、仍有待改進(jìn)的方面在何處等問(wèn)題。
圖3 上海迪斯尼分項(xiàng)主題游客滿意度水平走勢(shì)圖
(一)課題研究?jī)r(jià)值
1.在調(diào)查時(shí)間和空間上突破傳統(tǒng)調(diào)查局限性
傳統(tǒng)調(diào)查時(shí),需要在一段時(shí)期中開展不間斷調(diào)查,往往耗費(fèi)大量的人財(cái)物,所以往往在有限的經(jīng)費(fèi)預(yù)算情況下,采取抽樣調(diào)查的方法,了解在這個(gè)時(shí)點(diǎn)上的調(diào)查結(jié)果。本課題突破了這種局限性,能在連續(xù)的時(shí)間并且在不同的空間中完成調(diào)查任務(wù),達(dá)成傳統(tǒng)調(diào)查難以完成的效果。
2.成為傳統(tǒng)統(tǒng)計(jì)調(diào)查的有益補(bǔ)充甚至替代
通過(guò)機(jī)器學(xué)習(xí)加強(qiáng)對(duì)大數(shù)據(jù)的挖掘,尤其是對(duì)文本數(shù)據(jù)的挖掘和開發(fā),是對(duì)傳統(tǒng)的入戶調(diào)查、攔截調(diào)查、電話調(diào)查等調(diào)查方式的一種有效補(bǔ)充,能夠相互驗(yàn)證和評(píng)估。簡(jiǎn)而言之,大數(shù)據(jù)的數(shù)據(jù)導(dǎo)向方式與問(wèn)卷調(diào)研的立論導(dǎo)向方式能夠更好地配合,從而協(xié)助我們對(duì)研究問(wèn)題更客觀的理解和對(duì)研究結(jié)果更科學(xué)的評(píng)估。不斷加深對(duì)機(jī)器學(xué)習(xí)技術(shù)的掌握,不但是提高統(tǒng)計(jì)效能的“利器”,甚至可成為傳統(tǒng)統(tǒng)計(jì)調(diào)查的有益補(bǔ)充和替代。
3.對(duì)社會(huì)各領(lǐng)域的評(píng)價(jià)調(diào)查具有可復(fù)制、可推廣性
本課題對(duì)文本數(shù)據(jù)的挖掘與開發(fā)模式,可進(jìn)一步在其他旅游景點(diǎn)評(píng)價(jià)調(diào)查中加以復(fù)制推廣,并可以延伸至公共服務(wù)評(píng)價(jià)、輿情監(jiān)測(cè)、政策反饋等社會(huì)各領(lǐng)域中,尤其是同時(shí)涉及用戶文字評(píng)價(jià)和打分的相關(guān)調(diào)查和研究。課題組在后續(xù)的研究中已將課題成果應(yīng)用于上海市A級(jí)旅游景點(diǎn)調(diào)查和創(chuàng)建國(guó)家食品安全城市滿意度評(píng)價(jià)調(diào)查,并將網(wǎng)絡(luò)文本挖掘結(jié)果與傳統(tǒng)調(diào)查結(jié)果進(jìn)行比較分析。
(二)課題改進(jìn)方向
一是數(shù)據(jù)源有待進(jìn)一步拓展豐富,除了專門的評(píng)分類網(wǎng)站數(shù)據(jù)之外,可考慮納入微信、微博等各類個(gè)人社交網(wǎng)絡(luò)的評(píng)論、新聞評(píng)論、論壇帖子等相關(guān)文本。二是建模的效果受VSM、MLP等機(jī)器學(xué)習(xí)算法的參數(shù)值影響,如向量大小、神經(jīng)網(wǎng)絡(luò)各層的節(jié)點(diǎn)數(shù)、訓(xùn)練速率、迭代次數(shù)等。三是對(duì)文本情緒進(jìn)行判別時(shí),本文采用了神經(jīng)網(wǎng)絡(luò)+邏輯函數(shù)和神經(jīng)網(wǎng)絡(luò)+支持向量機(jī)兩種方法,可考慮采用隨機(jī)森林等其他模型進(jìn)一步進(jìn)行驗(yàn)證和優(yōu)化。
(責(zé)任編輯:曹家樂(lè))
統(tǒng)計(jì)科學(xué)與實(shí)踐2016年12期