徐 恒,張夢(mèng)璐,孫德廠
(河南工業(yè)大學(xué) 管理學(xué)院,河南 鄭州 450001)
近年來(lái),互聯(lián)網(wǎng)技術(shù)蓬勃發(fā)展、移動(dòng)應(yīng)用層出不窮,人們的生活方式受到互聯(lián)網(wǎng)的深刻影響,在網(wǎng)絡(luò)中發(fā)表評(píng)論、分享內(nèi)容,成為公眾自我表達(dá)的重要方式。與此同時(shí),在“互聯(lián)網(wǎng)+”經(jīng)濟(jì)新業(yè)態(tài)的背景下,我國(guó)傳統(tǒng)行業(yè)與互聯(lián)網(wǎng)深度融合,創(chuàng)新型互聯(lián)網(wǎng)企業(yè)快速發(fā)展,為廣大互聯(lián)網(wǎng)用戶發(fā)表評(píng)論提供了平臺(tái)和空間。用戶評(píng)論文本往往具有篇幅短小、非結(jié)構(gòu)化的特征,同時(shí)飽含個(gè)人喜好和情感,如何從評(píng)論文本中聽(tīng)到用戶最真實(shí)的心聲,成為企業(yè)、政府和學(xué)界等所關(guān)注的重點(diǎn)。面對(duì)爆炸式增長(zhǎng)的海量信息,人工篩選和分析信息耗時(shí)耗力,亟須更加高效便捷的技術(shù)手段,評(píng)論挖掘與情感分析便應(yīng)運(yùn)而生[1]。評(píng)論挖掘與情感分析是自然語(yǔ)言處理領(lǐng)域的一個(gè)基礎(chǔ)任務(wù),其基本目標(biāo)是從文本中識(shí)別觀點(diǎn),分析其情感傾向性,并抽取相關(guān)的觀點(diǎn)要素[2]。這些觀點(diǎn)包含積極的、消極的以及中性的觀點(diǎn)。為了解國(guó)內(nèi)該領(lǐng)域的研究熱點(diǎn)和發(fā)展趨勢(shì),本文利用LDA模型對(duì)2007—2019年間CNKI期刊文獻(xiàn)進(jìn)行主題挖掘,以期為相關(guān)研究工作提供參考。
LDA主題模型由Blei等在2003年提出,是一個(gè)三層貝葉斯產(chǎn)生式概率模型,適合對(duì)大規(guī)模文檔集合進(jìn)行建模[3]。如圖1所示,該模型假設(shè)文檔是由一系列潛在主題混合而成,主題是由詞項(xiàng)表中的詞匯組成,不同文檔的主要區(qū)別在于它們的主題組成及其比例不同。LDA主題模型在文獻(xiàn)研究領(lǐng)域的運(yùn)用,能夠在一定程度上彌補(bǔ)傳統(tǒng)文獻(xiàn)計(jì)量學(xué)的不足,有益于探究相關(guān)研究領(lǐng)域的熱點(diǎn)主題并分析主題的演化趨勢(shì)。
圖1 LDA主題模型拓?fù)浣Y(jié)構(gòu)
本文以2007—2019年間CNKI數(shù)據(jù)庫(kù)內(nèi)評(píng)論挖掘與情感分析領(lǐng)域的發(fā)文量為數(shù)據(jù)源,依據(jù)困惑度和相似度來(lái)確定主題數(shù)量,根據(jù)主題強(qiáng)度確定研究熱點(diǎn),并根據(jù)主題強(qiáng)度隨時(shí)間變化情況展開(kāi)主題演化分析,研究框架如圖2所示。
圖2 研究框架
在CNKI數(shù)據(jù)庫(kù)內(nèi)采用高級(jí)檢索功能,選擇搜索類型為期刊,檢索式為:主題=“評(píng)論挖掘”或者“情感分析”,時(shí)間跨度=“2007—2019”,選擇“中文文獻(xiàn)”,初步檢索得到1919篇文獻(xiàn)。人工去除期刊動(dòng)態(tài)、會(huì)議記錄、書(shū)序消息等內(nèi)容,以及與本領(lǐng)域研究?jī)?nèi)容無(wú)關(guān)的文獻(xiàn),得到1609篇文獻(xiàn),期刊年度發(fā)文數(shù)量變化如圖3所示。摘要作為文章內(nèi)容的精煉濃縮,展現(xiàn)了文章內(nèi)容的梗概[4]。本文導(dǎo)出文獻(xiàn)題錄數(shù)據(jù),通過(guò)Excel篩選出全部文獻(xiàn)摘要,得到研究所需的文檔數(shù)據(jù)集。由于jieba庫(kù)是目前運(yùn)用最為廣泛的Python類中文分詞器,支持繁體中文分詞和用戶自定義詞典,同時(shí)提供多種不同的分詞模式以滿足用戶不同需求[5]。利用Excel和jieba庫(kù)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,首先去除文檔中“[目的/意義]”“[方法/過(guò)程]”“[結(jié)果/結(jié)論]”等大量出現(xiàn)而無(wú)意文本義的內(nèi)容,然后,利用jieba庫(kù)對(duì)摘要文檔做去除停用詞和分詞處理。
圖3 期刊年度發(fā)文數(shù)量
對(duì)于LDA主題模型而言,主題數(shù)量是影響文本挖掘質(zhì)量的重要因素。由于不同的業(yè)務(wù)場(chǎng)景對(duì)于數(shù)據(jù)處理需求存在較大的差異,LDA主題模型訓(xùn)練過(guò)程中如何確定主題數(shù)量尚未取得公認(rèn)的最佳方法。本文采用目前學(xué)術(shù)界運(yùn)用較為廣泛的困惑度和相似度兩個(gè)指標(biāo)確定最佳主題數(shù)[8]。
困惑度不僅是LDA主題模型訓(xùn)練過(guò)程中確定主題數(shù)量的常用指標(biāo),也是預(yù)測(cè)LDA能力的標(biāo)準(zhǔn)方法[9]。比如,對(duì)于一篇文檔D來(lái)說(shuō),所訓(xùn)練出來(lái)的主題模型對(duì)于文檔D屬于某個(gè)主題的不確定性程度就是困惑度。困惑度越低,表明文本聚類的效果越好。由圖4可知:當(dāng)主題數(shù)量K=20時(shí),困惑度曲線趨于平緩;當(dāng)主題數(shù)量K=22時(shí),困惑度略微上升而后平緩下降。
圖4 主題困惑度得分
LDA主題模型作為一種文本挖掘技術(shù),本質(zhì)上是一種聚類模型,文本相似度計(jì)算作為各類文本挖掘技術(shù)的基石[10],能夠判定文本聚類的效果。當(dāng)主題結(jié)構(gòu)的平均相似度最小時(shí),對(duì)應(yīng)的模型最優(yōu)[11]。由圖5可知,當(dāng)主題數(shù)量K=21時(shí),主題相似度曲線達(dá)到最低點(diǎn)。
圖5 主題相似度得分
綜合困惑度和相似度的計(jì)算結(jié)果,當(dāng)主題數(shù)量K=21時(shí),主題相似度處于最低點(diǎn),困惑度值雖未處于最小值,但隨著主題數(shù)量的增加,困惑度變化趨于平緩,變化較小。因此,本文確定主題數(shù)量K=21,設(shè)置α=1/K,β=0.01,迭代次數(shù)為500次,抽取各主題下概率排序前10的詞項(xiàng),各詞項(xiàng)按照概率從大到小的順序排列,并依據(jù)高概率詞項(xiàng)含義,查閱相關(guān)文獻(xiàn)和咨詢專家對(duì)主題進(jìn)行人工標(biāo)識(shí)。
通過(guò)LDA模型訓(xùn)練,得到“主題—詞項(xiàng)”的概率分布,同時(shí)得到每個(gè)詞項(xiàng)與其對(duì)應(yīng)主題的概率分布,進(jìn)而對(duì)每個(gè)主題進(jìn)行人工標(biāo)識(shí)。表1是“主題—詞項(xiàng)”分布表,其中詞項(xiàng)按照概率從大到小排序。
表1 “主題—詞項(xiàng)”分布表
通過(guò)計(jì)算“文檔—主題”的概率分布,得到每一篇文檔從屬于不同主題的概率,從而計(jì)算對(duì)應(yīng)的主題強(qiáng)度。主題強(qiáng)度能夠反映該主題在某一個(gè)時(shí)間窗口上受到的關(guān)注程度,主題強(qiáng)度越大,越有可能被認(rèn)為是熱點(diǎn)主題[12]。本文對(duì)主題強(qiáng)度進(jìn)行排序,得到表2;同時(shí),以主題強(qiáng)度為參數(shù)繪制相應(yīng)的可視化圖譜,如圖6所示。
圖6 主題分布圖
表2 主題強(qiáng)度分布
本文設(shè)置主題強(qiáng)度閾值為0.05,得到如下7個(gè)熱點(diǎn)主題。
第一,情感詞典的構(gòu)建。情感詞典的情感分析是應(yīng)用廣泛且較為簡(jiǎn)便的分析方法,其基本原理是通過(guò)匹配文本和情感詞典的內(nèi)容,從而判斷情感極性。運(yùn)用該類方法提高文本挖掘準(zhǔn)確性的首要任務(wù),是完善現(xiàn)有情感詞典。因此,情感詞典的構(gòu)建成為該領(lǐng)域的熱門主題。通過(guò)梳理相關(guān)文獻(xiàn),目前中文情感詞典構(gòu)建方法主要為基于語(yǔ)料庫(kù)的方法、基于知識(shí)庫(kù)的方法以及基于知識(shí)庫(kù)和語(yǔ)料庫(kù)結(jié)合的方法。楊小平等以大規(guī)模中文語(yǔ)料庫(kù)為基礎(chǔ),通過(guò)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型進(jìn)行統(tǒng)計(jì)訓(xùn)練,提出了基于轉(zhuǎn)換約束集的多維情感詞典自動(dòng)構(gòu)建方法[13]。張華平等提出了一種自動(dòng)挖掘潛在情感詞并計(jì)算極性權(quán)重的算法,這一算法能夠有效地?cái)U(kuò)展和量化現(xiàn)有情感詞典,并為情感傾向性分析提供知識(shí)庫(kù)基礎(chǔ)[14]。胡家珩等以金融領(lǐng)域?yàn)槔Y(jié)合語(yǔ)料庫(kù)和知識(shí)庫(kù),利用Python深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)構(gòu)建情感詞典[15]。
第二,產(chǎn)品評(píng)論挖掘研究。產(chǎn)品網(wǎng)絡(luò)口碑能夠極大程度上影響消費(fèi)者的感知,從而間接影響產(chǎn)品銷量。從網(wǎng)絡(luò)評(píng)論中挖掘用戶對(duì)產(chǎn)品的觀點(diǎn),有助于企業(yè)精準(zhǔn)改進(jìn)產(chǎn)品性能。目前,產(chǎn)品評(píng)論挖掘研究主要集中于產(chǎn)品特征提取、評(píng)論觀點(diǎn)提取以及評(píng)論觀點(diǎn)情感傾向性判斷等。李實(shí)等針對(duì)中文評(píng)論數(shù)據(jù),提出一種基于改進(jìn)關(guān)聯(lián)規(guī)則算法的產(chǎn)品特征挖掘方法,并驗(yàn)證了其有效性[16]。睢國(guó)欽等利用連續(xù)詞袋模型、雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場(chǎng),識(shí)別出由評(píng)價(jià)對(duì)象、程度詞和觀點(diǎn)詞構(gòu)成的三元組,有效提取了產(chǎn)品評(píng)論觀點(diǎn)[17]。林園園等基于網(wǎng)絡(luò)產(chǎn)品評(píng)論信息,綜合考慮不同連詞對(duì)句子情感傾向性的影響,構(gòu)建了消費(fèi)者的情感波動(dòng)分析模型[18]。
第三,基于神經(jīng)網(wǎng)絡(luò)模型的研究。神經(jīng)網(wǎng)絡(luò)模型具有運(yùn)行速度快、聯(lián)想能力強(qiáng)、適應(yīng)性強(qiáng)、容錯(cuò)率高和自學(xué)習(xí)能力強(qiáng)等特點(diǎn),近年來(lái)被廣泛用于評(píng)論挖掘與情感分析相關(guān)研究,其中包括BP神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等,后兩者在學(xué)界運(yùn)用較為廣泛。卷積神經(jīng)網(wǎng)絡(luò)在特征提取方面具有一定的優(yōu)勢(shì),目前國(guó)內(nèi)相關(guān)研究多集中于對(duì)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)。李儉兵等對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),引入權(quán)重分布層、門控機(jī)制和序列標(biāo)注層,提高了對(duì)影評(píng)文本情感分析的效果[19]。長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(LSTM)是傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的特殊形式,解決了對(duì)RNN的長(zhǎng)期依賴問(wèn)題,是目前學(xué)界運(yùn)用較為廣泛的模型。梁軍等將傳統(tǒng)LSTM擴(kuò)展到基于樹(shù)結(jié)構(gòu)的RNN,捕捉文本語(yǔ)法語(yǔ)義信息,同時(shí)引入情感極性轉(zhuǎn)移,提出一種新的情感分析模型,并證明了其優(yōu)勢(shì)[20]。
第四,情感分析方法研究。情感分析方法主要有兩種形式:一是基于情感詞典的分析方法,二是基于機(jī)器學(xué)習(xí)的分析方法。牛耘等提出一種基于多層次語(yǔ)言特征的弱監(jiān)督情感分析方法,通過(guò)自訓(xùn)練擴(kuò)充情感詞典以構(gòu)建領(lǐng)域詞典,并對(duì)目標(biāo)文本的情感傾向性進(jìn)行判斷,該方法在不同領(lǐng)域均取得較好成績(jī)[21]??娫G嗟葹榻鉀Q基于單獨(dú)的文本和圖片的情感分析方法的不全面性,利用機(jī)器學(xué)習(xí)的相關(guān)技術(shù),提出一種圖文融合的微博情感分析方法,提高了情感分析效果[22]。
第五,情感分類研究。情感分類是情感分析的基礎(chǔ)任務(wù)之一,是指根據(jù)文本所表達(dá)的含義和情感信息,將文本劃分為正向、負(fù)向兩種或者多種類型,是基于用戶態(tài)度、觀點(diǎn)以及傾向性的劃分。情感分類不同于一般模式的分類,其存在一定的特殊性,如情感表達(dá)的隱秘性、多樣性等,因此學(xué)者對(duì)于如何提高情感分類的準(zhǔn)確性展開(kāi)了深度研究。目前,國(guó)內(nèi)對(duì)于情感分類的研究主要集中于基于機(jī)器學(xué)習(xí)的分類方法,其中所運(yùn)用到的機(jī)器學(xué)習(xí)模型包含支持向量機(jī)、條件隨機(jī)場(chǎng)、樸素貝葉斯、卷積神經(jīng)網(wǎng)絡(luò)、最大熵和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)等。徐軍等利用樸素貝葉斯和最大熵方法對(duì)新聞和評(píng)論語(yǔ)料進(jìn)行情感分類,證明了機(jī)器學(xué)習(xí)方法在情感分類工作方面的顯著優(yōu)勢(shì)[23]。侯艷輝等基于影評(píng)數(shù)據(jù)源,通過(guò)TF-IDF(詞頻-逆文本頻率)和TextRank算法建立本體概念模型,融合電影特征屬性、情緒模型和Bi-LSTM(雙向長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)),構(gòu)建了一種細(xì)粒度情感分類模型,提高了細(xì)粒度情感分類的準(zhǔn)確性[24]。
第六,網(wǎng)絡(luò)輿情研究。與傳統(tǒng)輿情相比,網(wǎng)絡(luò)輿情具有傳播速度快、影響范圍廣、監(jiān)控難度大等特點(diǎn)。在新媒體環(huán)境中,公眾更傾向于在互聯(lián)網(wǎng)上表達(dá)個(gè)人對(duì)社會(huì)公共事件的態(tài)度和意見(jiàn),因此,通過(guò)評(píng)論挖掘與情感分析相關(guān)技術(shù)對(duì)網(wǎng)絡(luò)輿情展開(kāi)研究,成為近年來(lái)的研究熱點(diǎn)。通過(guò)梳理文獻(xiàn),國(guó)內(nèi)相關(guān)領(lǐng)域的網(wǎng)絡(luò)輿情研究,主要集中于突發(fā)事件網(wǎng)絡(luò)輿情演化分析、政府輿情監(jiān)控、企業(yè)輿情監(jiān)控和網(wǎng)絡(luò)輿情預(yù)警機(jī)制分析等主題,其中數(shù)據(jù)源主要為微博。文宏從過(guò)程角度出發(fā),以“雪鄉(xiāng)”事件為例,通過(guò)大數(shù)據(jù)和評(píng)論挖掘相關(guān)技術(shù)展開(kāi)深入剖析,構(gòu)建了公眾對(duì)政府回應(yīng)的反饋圖譜,以期為政府輿情監(jiān)管提供一定的幫助[25]。辜麗瓊等對(duì)網(wǎng)民在線評(píng)論展開(kāi)情感追蹤分析,評(píng)估企業(yè)在應(yīng)對(duì)危機(jī)輿情事件時(shí)所采取的措施的有效性,并基于此對(duì)企業(yè)輿情管理工作提出建議[26]。
第七,微博情感趨勢(shì)預(yù)測(cè)研究。微博是一款為大眾提供休閑娛樂(lè)、生活服務(wù)的網(wǎng)絡(luò)社交平臺(tái),它具有信息發(fā)布門檻低、即時(shí)即地傳播信息、傳播速度快和信息交互便捷等特點(diǎn)。隨著微博用戶數(shù)量的增加以及各界名人、企業(yè)、媒體、高校和網(wǎng)站的入駐,微博成為輿論傳播的主要平臺(tái)之一。目前,國(guó)內(nèi)學(xué)者通過(guò)對(duì)微博數(shù)據(jù)的評(píng)論挖掘與情感分析,了解用戶情感、預(yù)測(cè)用戶情感發(fā)展方向,并基于此展開(kāi)網(wǎng)絡(luò)輿情分析、產(chǎn)品市場(chǎng)預(yù)測(cè)研究。任巨偉等以微博真實(shí)事件為例,考慮微博特征稀疏、上下文缺失等特性,使用語(yǔ)義特征和情感常識(shí)知識(shí)構(gòu)造了雙層分類方法,并在連續(xù)時(shí)間段內(nèi)預(yù)測(cè)公眾對(duì)于特定事件的情感變化趨勢(shì)[27]。王偉軍等構(gòu)建了情感狀態(tài)詞典,建立了融合微博用戶情感狀態(tài)、微博提及數(shù)、評(píng)論情感以及數(shù)量的預(yù)測(cè)特征模型,利用機(jī)器學(xué)習(xí)方法處理不同時(shí)期的新產(chǎn)品市場(chǎng)預(yù)測(cè)問(wèn)題,并通過(guò)電影數(shù)據(jù)實(shí)例證明了模型的可行性[28]。
將時(shí)間維度加入“文檔—主題”概率計(jì)算中,能夠得到主題強(qiáng)度隨時(shí)間演進(jìn)的變化情況,并基于此對(duì)評(píng)論挖掘與情感分析研究領(lǐng)域的主題演化進(jìn)行了分析。通過(guò)梳理全部主題強(qiáng)度演化情況可以發(fā)現(xiàn),2007—2012年間,由于國(guó)內(nèi)對(duì)評(píng)論挖掘與情感分析的研究文獻(xiàn)總量較少,導(dǎo)致主題強(qiáng)度值變化缺乏規(guī)律性,整體波動(dòng)較大。隨著文獻(xiàn)總量的不斷增加,該領(lǐng)域發(fā)展趨勢(shì)表現(xiàn)特征較為明顯。因此,本文主要以2012年及其后主題強(qiáng)度變化值為參數(shù),將21個(gè)主題劃分為呈下降趨勢(shì)的主題、呈平穩(wěn)趨勢(shì)的主題和呈上升趨勢(shì)的主題等3類。
圖7展示了2007—2019年主題強(qiáng)度呈下降趨勢(shì)的主題。評(píng)論挖掘與情感分析領(lǐng)域早期研究工作,主要集中于基礎(chǔ)性工作研究和技術(shù)方法研究,隨著研究工作的不斷深入和研究主題的不斷拓展,相關(guān)主題的強(qiáng)度呈現(xiàn)下降趨勢(shì),如評(píng)論對(duì)象抽取方法研究、情感分析方法研究、情感詞典構(gòu)建和領(lǐng)域情感詞典構(gòu)建等。此外,由于協(xié)同過(guò)濾算法有助于建立用戶推薦系統(tǒng)而在學(xué)界早期研究工作中得到廣泛應(yīng)用,但其存在數(shù)據(jù)稀疏性和冷啟動(dòng)等問(wèn)題[29]。同時(shí),電子商務(wù)網(wǎng)站存在用戶評(píng)分集中、區(qū)分度不明顯和可信度不高等問(wèn)題[30],使得基于協(xié)同過(guò)濾算法的研究結(jié)果準(zhǔn)確率不高,因此,該研究主題強(qiáng)度逐年弱化。產(chǎn)品評(píng)論挖掘研究始終受到學(xué)界較高的關(guān)注,并且在其發(fā)展過(guò)程中不斷衍生出更加細(xì)化的研究主題,如用戶偏好研究、旅游行業(yè)應(yīng)用研究、客戶服務(wù)提升等。2014年,由于微博市場(chǎng)的逐漸冷卻,關(guān)于微博情感趨勢(shì)預(yù)測(cè)的相關(guān)學(xué)術(shù)研究也呈現(xiàn)下降趨勢(shì),同時(shí)對(duì)微博用戶情感趨勢(shì)的研究逐漸演化為對(duì)網(wǎng)絡(luò)輿情的研究。
圖7 呈下降趨勢(shì)的主題強(qiáng)度分布折線圖
圖8顯示了該領(lǐng)域研究趨勢(shì)穩(wěn)定的7個(gè)主題。不斷提高評(píng)論挖掘與情感分析的準(zhǔn)確率與效率是該領(lǐng)域研究工作的主要任務(wù)之一,其中情感分類研究、語(yǔ)義情感極性研究、文本主題研究和基于TF-IDF算法的研究等,皆可輔助改進(jìn)情感分析方法,為應(yīng)用研究工作提供技術(shù)支撐。用戶推薦系統(tǒng)研究有助于商務(wù)智能的推廣運(yùn)用,受到學(xué)界持續(xù)關(guān)注,目前研究工作主要集中于餐飲、音樂(lè)和電商平臺(tái)等。對(duì)于新聞評(píng)論文本的研究能夠豐富新聞傳播理論,同時(shí)輔助輿情管理工作。消費(fèi)者在線評(píng)論研究,一方面能為消費(fèi)者快速準(zhǔn)確決策提供信息參考,另一方面能為企業(yè)產(chǎn)品研發(fā)、營(yíng)銷和售后服務(wù)提供理論依據(jù)。
圖8 呈平穩(wěn)趨勢(shì)的主題強(qiáng)度分布折線圖
圖9展示了2007—2019年間評(píng)論挖掘與情感分析領(lǐng)域主題強(qiáng)度呈現(xiàn)上升趨勢(shì)的主題,其中包括7個(gè)主題。
圖9 呈上升趨勢(shì)的主題強(qiáng)度分布折線圖
第一,網(wǎng)絡(luò)輿情研究。2012年,我國(guó)移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展和各大新媒體平臺(tái)的迅速崛起,改變了社會(huì)輿論格局;同時(shí),貫徹黨的十七屆六中全會(huì)精神,“加強(qiáng)網(wǎng)絡(luò)建設(shè)和管理,發(fā)展健康向上的網(wǎng)絡(luò)文化”[31],提高了社會(huì)各界對(duì)于網(wǎng)絡(luò)輿情研究的重視。因此,該主題在2012年主題強(qiáng)度達(dá)到峰值,雖然2013年有所下降,但整體發(fā)展呈現(xiàn)上升的趨勢(shì)。
第二,用戶偏好研究。用戶偏好研究出現(xiàn)于2010年,但直至2015年,變化趨勢(shì)一直處于波動(dòng)中,自2016—2019年,整體趨勢(shì)呈現(xiàn)上升狀態(tài)。用戶偏好研究能夠幫助企業(yè)為用戶提供更完善的個(gè)性化服務(wù),同時(shí)為企業(yè)改進(jìn)產(chǎn)品性能提供參考。
第三,教育領(lǐng)域應(yīng)用研究。該主題自2007—2014年發(fā)展?fàn)顟B(tài)較不穩(wěn)定,2014年主題強(qiáng)度達(dá)到峰值。經(jīng)查閱相關(guān)資料,2014年國(guó)內(nèi)在線機(jī)構(gòu)以每天平均2.6家的速度快速增長(zhǎng),也因此被業(yè)界稱之為“在線教育元年”[32]。針對(duì)教育領(lǐng)域的評(píng)論挖掘與情感分析研究也隨之極速發(fā)展。2015年在線教育市場(chǎng)回落,該主題研究強(qiáng)度有所下降,但在之后的幾年,整體仍呈現(xiàn)上升趨勢(shì)。
第四,多模態(tài)情感分析研究。多模態(tài)情感分析研究區(qū)別于傳統(tǒng)的文本挖掘,考慮的是文本、圖像和視頻等各種形態(tài)的信息。在2007—2012年,由于相關(guān)研究對(duì)技術(shù)要求較高,導(dǎo)致實(shí)驗(yàn)結(jié)果準(zhǔn)確率不高,該主題發(fā)展不穩(wěn)定且有下降趨勢(shì)。隨著信息技術(shù)的不斷進(jìn)步和用戶表達(dá)方式的多元化發(fā)展,2013年起該主題強(qiáng)度呈現(xiàn)上升趨勢(shì)。
第五,客戶服務(wù)提升研究??蛻舴?wù)提升研究主要應(yīng)用于圖書(shū)館管理、圖書(shū)電商平臺(tái)客戶管理、酒店管理、餐飲管理和產(chǎn)品售后管理等領(lǐng)域。對(duì)相關(guān)主題的研究自2011年開(kāi)始出現(xiàn),近年來(lái),隨著各行業(yè)對(duì)客戶服務(wù)管理的重視,該主題研究數(shù)量整體呈現(xiàn)上升趨勢(shì),且應(yīng)用領(lǐng)域愈加廣泛。
第六,旅游行業(yè)應(yīng)用研究?!盎ヂ?lián)網(wǎng)+”的概念于2012年首次提出,國(guó)內(nèi)各傳統(tǒng)行業(yè)開(kāi)始融合互聯(lián)網(wǎng)創(chuàng)新技術(shù),旅游行業(yè)也開(kāi)始逐漸互聯(lián)網(wǎng)化。2013年,評(píng)論挖掘與情感分析領(lǐng)域開(kāi)始出現(xiàn)對(duì)旅游行業(yè)的應(yīng)用研究,隨著技術(shù)的不斷進(jìn)步和公眾互聯(lián)網(wǎng)思維的逐漸形成,旅游行業(yè)互聯(lián)網(wǎng)發(fā)展不斷走向成熟,學(xué)界對(duì)于該主題的研究關(guān)注度也逐年增高。
第七,基于神經(jīng)網(wǎng)絡(luò)模型的研究。神經(jīng)網(wǎng)絡(luò)模型在評(píng)論挖掘與情感分析研究領(lǐng)域的應(yīng)用,起源于2013年。由于其具有強(qiáng)自學(xué)習(xí)能力、高聯(lián)想存儲(chǔ)能力以及高速尋找優(yōu)化解的能力,神經(jīng)網(wǎng)絡(luò)模型在評(píng)論挖掘與情感分析領(lǐng)域迅速受到學(xué)者關(guān)注,該主題強(qiáng)度呈現(xiàn)急速上升的趨勢(shì)。
本文針對(duì)當(dāng)前較為熱點(diǎn)的評(píng)論挖掘與情感分析領(lǐng)域,利用LDA模型對(duì)2007—2019年間CNKI收錄的1609篇相關(guān)期刊文獻(xiàn)展開(kāi)量化分析,一定層面上展現(xiàn)了我國(guó)評(píng)論挖掘與情感分析領(lǐng)域近年來(lái)研究主題的演化情況。
經(jīng)分析,本文得出以下研究結(jié)論:一是2007年以來(lái),我國(guó)評(píng)論挖掘與情感分析領(lǐng)域研究逐漸展開(kāi),研究主題較為豐富,其中熱門主題包括“情感詞典的構(gòu)建”“產(chǎn)品評(píng)論挖掘研究”和“基于神經(jīng)網(wǎng)絡(luò)模型的研究”等7個(gè)主題;二是隨著技術(shù)革新和時(shí)代發(fā)展,新興主題不斷出現(xiàn),研究主題逐漸豐富,如“用戶偏好研究”“基于神經(jīng)網(wǎng)絡(luò)模型的研究”等,與此同時(shí),存在強(qiáng)度不斷弱化的主題和持續(xù)穩(wěn)定發(fā)展的主題。
在大數(shù)據(jù)與人工智能的時(shí)代背景下,無(wú)論從學(xué)科發(fā)展需求、市場(chǎng)分析需求出發(fā),還是從政府管理需求出發(fā),評(píng)論挖掘與情感分析都將持續(xù)成為學(xué)界研究的熱點(diǎn)。通過(guò)梳理該領(lǐng)域研究熱點(diǎn)和主題演化情況,本文將評(píng)論挖掘與情感分析未來(lái)研究趨勢(shì)分為以下4點(diǎn)。
第一,網(wǎng)絡(luò)輿情監(jiān)控。隨著網(wǎng)民數(shù)量的增加和人們生活方式的改變,網(wǎng)絡(luò)輿論走向?qū)ζ髽I(yè)和政府的決策會(huì)產(chǎn)生重要影響。網(wǎng)絡(luò)輿情監(jiān)控研究,通過(guò)剖析網(wǎng)絡(luò)評(píng)論文本,了解公眾對(duì)某一產(chǎn)品、服務(wù)或事件的情感傾向,預(yù)測(cè)輿情走向,能夠提高企業(yè)與政府的輿情管理和應(yīng)急管理水平,降低輿論引發(fā)的不利影響。
第二,跨學(xué)科應(yīng)用研究。一方面,數(shù)據(jù)科學(xué)逐漸滲透和改變了傳統(tǒng)學(xué)科的發(fā)展,相較于傳統(tǒng)數(shù)據(jù)的獲取與處理方法,評(píng)論挖掘與情感分析技術(shù)對(duì)于數(shù)據(jù)的處理更加高效、準(zhǔn)確和客觀,各學(xué)科的學(xué)術(shù)研究工作愈加需要相關(guān)技術(shù)的支撐。另一方面,心理學(xué)、社會(huì)學(xué)和神經(jīng)學(xué)等學(xué)科的相關(guān)理論知識(shí),為評(píng)論挖掘與情感分析領(lǐng)域的發(fā)展提供了理論基礎(chǔ)。
第三,商務(wù)智能領(lǐng)域研究??蛻粼u(píng)論是對(duì)企業(yè)產(chǎn)品和服務(wù)的反饋,通過(guò)評(píng)論挖掘與情感分析可以了解用戶喜好,輔助建立用戶推薦系統(tǒng),提升客戶體驗(yàn),同時(shí)有助于改善客戶服務(wù)體系。
第四,基于機(jī)器學(xué)習(xí)的研究。機(jī)器學(xué)習(xí)是多領(lǐng)域交叉學(xué)科,是人工智能的核心技術(shù)。評(píng)論挖掘與情感分析領(lǐng)域目前運(yùn)用較為廣泛的神經(jīng)網(wǎng)絡(luò)模型,屬于機(jī)器學(xué)習(xí)領(lǐng)域中的新興研究方向。同時(shí),在情感分類、情感詞典的構(gòu)建和情感分析方法的研究中,運(yùn)用和改進(jìn)機(jī)器學(xué)習(xí)算法的研究文獻(xiàn)亦逐年增多。隨著人工智能的不斷創(chuàng)新與發(fā)展,機(jī)器學(xué)習(xí)在評(píng)論挖掘與情感分析領(lǐng)域的應(yīng)用將不斷深入。