摘要:在大數(shù)據(jù)時(shí)代,線上社交網(wǎng)絡(luò)、傳感器網(wǎng)絡(luò)、移動(dòng)設(shè)備以及企業(yè)系統(tǒng)產(chǎn)生了海量數(shù)據(jù)。這一現(xiàn)象為企業(yè)提供了前所未有的機(jī)遇,可以利用大數(shù)據(jù)分析來挖掘有價(jià)值的商業(yè)信息。然而,傳統(tǒng)的商業(yè)分析方法可能無法應(yīng)對(duì)大數(shù)據(jù)的洪流。文章主要貢獻(xiàn)是展示了一種新型的大數(shù)據(jù)分析框架BDSASA的開發(fā),該框架利用概率語言模型來分析數(shù)億在線消費(fèi)者評(píng)論中蘊(yùn)含的消費(fèi)者情緒。特別是,一個(gè)推理模型被嵌入到經(jīng)典語言建??蚣苤?,以增強(qiáng)對(duì)消費(fèi)者情緒的預(yù)測(cè)。文章研究工作的實(shí)際應(yīng)用意義在于,組織可以應(yīng)用文章的大數(shù)據(jù)分析框架來分析消費(fèi)者的產(chǎn)品偏好,從而制定更有效的營銷和生產(chǎn)策略。
關(guān)鍵詞:大數(shù)據(jù),數(shù)據(jù)流分析,情感分析,在線評(píng)論
中圖分類號(hào):TP391.41
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1674-9545(2024)03-0085-(06)
DOI:10.19717/j.cnki.jjun.2024.03.018
1研究背景
在社交網(wǎng)站時(shí)代,用戶貢獻(xiàn)的內(nèi)容已成為常態(tài)。個(gè)人、企業(yè)、政府和研究機(jī)構(gòu)產(chǎn)生的數(shù)據(jù)量正在經(jīng)歷爆炸性增長——這一現(xiàn)象被稱為數(shù)據(jù)洪流。對(duì)于個(gè)人社交網(wǎng)絡(luò)而言,許多在線社交網(wǎng)站擁有1億到5億用戶。目前,微信和QQ就已經(jīng)分別有13億和5.9億活躍用戶。微信的友誼關(guān)系鏈目前早已超過1000億條。大量用戶貢獻(xiàn)內(nèi)容的數(shù)據(jù)流,如在線消費(fèi)者評(píng)論、在線新聞、個(gè)人對(duì)話、搜索查詢等,迫切需要研究和開發(fā)新一代的分析方法和工具來有效處理這些數(shù)據(jù),最好是實(shí)時(shí)或接近實(shí)時(shí)。大數(shù)據(jù)通常有三個(gè)維度,被稱為3V:體量(Volume)、速度(velocity)和多樣性(variety)[1]。目前,處理大數(shù)據(jù)有兩種常見方法,即批處理模式的大數(shù)據(jù)分析和應(yīng)用基于流的大數(shù)據(jù)分析。
大部分最初來自社交網(wǎng)站的是流數(shù)據(jù)。例如,代表在線社交媒體中個(gè)人行為和互動(dòng)的數(shù)據(jù),或者傳感器網(wǎng)絡(luò)捕獲的某些事件的數(shù)據(jù),就是典型的流數(shù)據(jù)。其他類型的大數(shù)據(jù)有些只是從特定時(shí)間點(diǎn)生成的流數(shù)據(jù)的快照視圖。大數(shù)據(jù)流的顯著特點(diǎn)是數(shù)據(jù)持續(xù)高速到達(dá)。因此,有效的大數(shù)據(jù)流分析方法應(yīng)該一次性處理流數(shù)據(jù),并且在空間和時(shí)間的嚴(yán)格限制下進(jìn)行。目前,關(guān)于大數(shù)據(jù)分析算法的研究往往集中在批處理模式上,而設(shè)計(jì)用來實(shí)時(shí)或接近實(shí)時(shí)處理大數(shù)據(jù)流的算法并不豐富。
圖2展示了處理大數(shù)據(jù)的常見方法(工具)的分類。大數(shù)據(jù)分析方法通??梢苑譃榉植际交騿我恢鳈C(jī)方法。對(duì)于分布式大數(shù)據(jù)分析方法,可以進(jìn)一步細(xì)分為批處理模式和流處理模式。盡管批處理模式的大數(shù)據(jù)分析方法(例如,MapReduce)目前是主導(dǎo)方法,但能有效處理連續(xù)不斷演變數(shù)據(jù)流的在線增量算法,對(duì)解決在線社交媒體上大數(shù)據(jù)的“體量”和“速度”問題是必要的。MapReduce和大數(shù)據(jù)流分析雖然是兩種不同類別的分析方法,但在某些理論視角上它們是相關(guān)的。最近,研究人員和實(shí)踐者嘗試在MapReduce批處理分析框架之上整合基于流的分析以及在線計(jì)算。這類樣本工具包括Hadoop在線原型。然而,需要開展更多研究以開發(fā)下一代大數(shù)據(jù)流分析方法,這些方法應(yīng)繼承批處理分析和流分析的優(yōu)點(diǎn)。
研究的主要貢獻(xiàn)在于設(shè)計(jì)和開發(fā)了一個(gè)新的大數(shù)據(jù)流分析框架,該框架提供了必要的基礎(chǔ)設(shè)施,以實(shí)施概率語言建模方法,用于接近實(shí)時(shí)的消費(fèi)者情緒分析。研究的價(jià)值在于組織可以應(yīng)用文章的框架,更好地利用集體社會(huì)智慧,制定有效的市場(chǎng)營銷和產(chǎn)品設(shè)計(jì)策略。結(jié)果是,這些組織在全球市場(chǎng)中變得更具競爭力,這是大數(shù)據(jù)分析最初的應(yīng)用價(jià)值之一。
隨著社交網(wǎng)站的快速增長,越來越多的網(wǎng)絡(luò)用戶通過博客、論壇、聊天室和社交網(wǎng)絡(luò)等各種在線社交媒體發(fā)布和獲取關(guān)于產(chǎn)品、人物或政治問題的觀點(diǎn)。大量用戶貢獻(xiàn)的內(nèi)容為自動(dòng)提取和分析與潛在實(shí)體(如消費(fèi)產(chǎn)品)相關(guān)的情緒或情感打開了大門。情緒分析也被稱為意見分析、主觀性分析或觀點(diǎn)挖掘[2]"。情緒分析旨在提取對(duì)某些主題的主觀感受,而不僅僅是提取關(guān)于這些主題的客觀方面[3]。分析發(fā)布到社交網(wǎng)絡(luò)或在線論壇的信息的情緒,可以為那些旨在及時(shí)提取有關(guān)客戶如何看待其產(chǎn)品或服務(wù)的商務(wù)智能的組織產(chǎn)生無數(shù)的商業(yè)價(jià)值[4]。
情緒分析可以應(yīng)用于短語、句子或整條信息[5]。大多數(shù)現(xiàn)有的情緒分析方法可以分為兩個(gè)主要陣營。第一個(gè)常見的范式利用情緒詞典或啟發(fā)式規(guī)則作為知識(shí)基礎(chǔ),來定位有觀點(diǎn)的表達(dá)并預(yù)測(cè)這些有觀點(diǎn)表達(dá)的極性[6]。第二個(gè)常見的情緒分析方法基于統(tǒng)計(jì)學(xué)習(xí)方法[7]。然而,每個(gè)陣營都有自己的局限性。例如,對(duì)于基于詞典的方法,常見的情緒詞典可能無法檢測(cè)到觀點(diǎn)表達(dá)的上下文敏感特性。例如,在關(guān)于電腦的消費(fèi)者評(píng)論中,同樣的詞如“小巧便攜的筆記本”就具有正面積極性。實(shí)際上,在著名的OpinionFinder情緒詞典中,“小”被定義為負(fù)面觀點(diǎn)詞。演示模型訓(xùn)練的步驟,以網(wǎng)絡(luò)采集的數(shù)據(jù)表為原始數(shù)據(jù):
步驟1:數(shù)據(jù)清洗和預(yù)處理。首先,對(duì)原始文本進(jìn)行清洗和預(yù)處理,以便去除噪聲并標(biāo)準(zhǔn)化文本數(shù)據(jù)。這可能包括去除標(biāo)點(diǎn)符號(hào)、停用詞、多余空格,以及文本正規(guī)化(如大小寫轉(zhuǎn)換)。
步驟2:特征提取。從清洗后的文本中提取數(shù)值特征,這些特征將用于后續(xù)的情感分析模型訓(xùn)練。
步驟3:模型訓(xùn)練與情感分類。使用上一步驟中的特征,選擇并訓(xùn)練一個(gè)情感分類模型。
步驟4:評(píng)估與優(yōu)化。最后,文章評(píng)估模型的性能并根據(jù)需要進(jìn)行調(diào)整。
相比之下,統(tǒng)計(jì)學(xué)習(xí)技術(shù)如監(jiān)督機(jī)器學(xué)習(xí)方法通常需要大量的標(biāo)記訓(xùn)練案例,以構(gòu)建有效的分類器來識(shí)別有觀點(diǎn)表達(dá)的極性。但是,在大數(shù)據(jù)分析環(huán)境中,假設(shè)有大量的人工標(biāo)記訓(xùn)練樣本是不切實(shí)際的。另一方面,這兩種方法可能無法擴(kuò)展以分析如今社交網(wǎng)站上發(fā)現(xiàn)的大量有觀點(diǎn)的表達(dá)。顯然,存在一個(gè)研究空白,需要開發(fā)新方法,能夠通過利用并行和分布式系統(tǒng)架構(gòu)實(shí)時(shí)或接近實(shí)時(shí)地分析大型社交媒體數(shù)據(jù)。文章中的研究工作正是填補(bǔ)這種現(xiàn)象的研究空白,例如文章在進(jìn)行焦慮情感分析時(shí),首先進(jìn)行獨(dú)立樣本檢驗(yàn),原理與步驟如下:兩個(gè)總體都是正態(tài)分布、且兩個(gè)總體方差σ21和σ22都已知,兩獨(dú)立樣本均值的抽樣分布的方差估計(jì)為σ212,可以表示為:
σ212=σ21[]n1+σ22[]n2(1)
式(1)中,σ21、σ22分別為第一個(gè)和第二個(gè)總體的方差;n1、n2分別為一、二樣本的樣本量??梢岳肏檢驗(yàn)證明兩總體的均值是否存在顯著性差異,其統(tǒng)計(jì)量為:
Z=(x-1-x-2)-(u1-u2)[]σ21[]n1+σ22[]n2
(2)
如果σ21=σ22,可以使用聯(lián)合方差代替總體方差,即:
S2p=(n1-1)S21+(n2-1)S22[]n1+n2-2(3)
此時(shí)的樣本抽樣分布為t分布,構(gòu)建的統(tǒng)計(jì)量為:
t=(x-1-x-2)-(u1-u2)[]S2p[]n1+S2p[]n2
(4)
t'分布的自由度與t分布不同,需要修正,修正后的自由度為f,即:
f=(S21[]n1+S22[]n2)2[]
(S21[]n1)2/n1+(S22[]n2)2/n2(5)
比較后,做出統(tǒng)計(jì)決策:
基于以上的獨(dú)立樣本研究基礎(chǔ)發(fā)現(xiàn)數(shù)據(jù)缺失實(shí)時(shí)情感分析模塊,數(shù)據(jù)集匯總后只能提供整體的情感集群,不能提供最實(shí)時(shí)精準(zhǔn)的數(shù)據(jù)。研究的意義在于,業(yè)務(wù)經(jīng)理和產(chǎn)品設(shè)計(jì)師可以應(yīng)用所提出的大數(shù)據(jù)流分析框架,及時(shí)分析在線消費(fèi)者評(píng)論中蘊(yùn)含的消費(fèi)者情緒,可以制定積極的市場(chǎng)營銷或產(chǎn)品設(shè)計(jì)策略,以增強(qiáng)企業(yè)運(yùn)營和相應(yīng)公司的競爭力。此外,第三方聲譽(yù)監(jiān)測(cè)機(jī)構(gòu)可以應(yīng)用所提出的框架,持續(xù)監(jiān)控針對(duì)目標(biāo)產(chǎn)品和服務(wù)的情緒,并從在線社交媒體中近乎實(shí)時(shí)地提取適當(dāng)?shù)纳鐣?huì)大智慧。
2大數(shù)據(jù)流分析框架
該研究提出的用于在線情緒分析的大數(shù)據(jù)流分析框架(BDSASA)的概覽。BDSASA框架由七層組成,分別是數(shù)據(jù)流層、數(shù)據(jù)預(yù)處理層、數(shù)據(jù)挖掘?qū)印㈩A(yù)測(cè)層、學(xué)習(xí)與適應(yīng)層、展示層和存儲(chǔ)層[8]。對(duì)于這些層,將應(yīng)用復(fù)雜且先進(jìn)的大數(shù)據(jù)分析技術(shù)來實(shí)現(xiàn)快速服務(wù)原型。例如,在數(shù)據(jù)流層,文章使用開源的分布式數(shù)據(jù)流引擎Storm來處理通過專用API和爬蟲輸入的流數(shù)據(jù)。例如,使用Topsy API從Twitter獲取與產(chǎn)品相關(guān)的評(píng)論。
存儲(chǔ)層利用Apache HBase和HDFS來實(shí)現(xiàn)產(chǎn)品和服務(wù)討論的大量消費(fèi)者評(píng)論的實(shí)時(shí)存儲(chǔ)和檢索。依賴解析器和GATE NER模塊[9]被應(yīng)用于構(gòu)建數(shù)據(jù)預(yù)處理層。測(cè)試表明,多語言社交媒體數(shù)據(jù)流的規(guī)模每天在0.2~0.4千兆字節(jié)之間,并且這個(gè)量正在穩(wěn)步增長。對(duì)于特征提取層,Affect Miner利用一種新型的基于社區(qū)的情感強(qiáng)度度量來預(yù)測(cè)消費(fèi)者對(duì)產(chǎn)品的情緒。在情感分析中常用的六大類情緒中,即憤怒、恐懼、快樂、悲傷、驚訝和中性,文章專注于與產(chǎn)品情緒分析相關(guān)的憤怒、恐懼、悲傷和快樂類別。Affect Miner使用了通過統(tǒng)計(jì)學(xué)習(xí)方法擴(kuò)展的WordNet-Affect詞典[9]。由于社交媒體信息通常帶有噪音,該框架的一個(gè)新穎之處在于,通過處理真正與消費(fèi)者關(guān)于產(chǎn)品或服務(wù)的評(píng)論相關(guān)的消息,減少了“情感強(qiáng)度”度量的噪音。
以前的研究使用了HMM方法來挖掘行為者的潛藏“意圖”。文章采用了一種新穎且更為復(fù)雜的在線生成模型以及相應(yīng)的分布式抽樣算法來構(gòu)建文章的潛在意圖提取器,該提取器預(yù)測(cè)消費(fèi)者對(duì)潛在產(chǎn)品或服務(wù)獲取的意圖。情感提取器利用眾所周知的情感詞典,如OpinionFinder,來提取消費(fèi)者評(píng)論中嵌入的情感詞匯。最后,基于一種新型的推斷性語言建模方法,對(duì)消費(fèi)者評(píng)論的整體情感極性進(jìn)行預(yù)測(cè)。用于上下文敏感情感分析的推斷性語言建模方法的計(jì)算細(xì)節(jié)將進(jìn)一步闡述。通過展示層,系統(tǒng)將針對(duì)某一產(chǎn)品或產(chǎn)品類別的整體情感極性傳達(dá)給用戶。設(shè)計(jì)的框架支持不同的展示模式(例如,桌面或移動(dòng)設(shè)備上的文本、圖形、多媒體)。
此外,文章設(shè)計(jì)了一種新穎的并行協(xié)同遺傳算法(PCGA),使得所提出的預(yù)測(cè)模型配備了學(xué)習(xí)和適應(yīng)機(jī)制,該機(jī)制不斷調(diào)整整個(gè)服務(wù)以適應(yīng)問題領(lǐng)域可能變化的特征。PCGA可以將大型搜索空間劃分為一些子空間,進(jìn)行并行和多樣化的搜索,這提高了啟發(fā)式搜索過程的效率和有效性。每個(gè)子空間由一個(gè)單獨(dú)的集群托管。設(shè)計(jì)遺傳算法(GA)涉及三個(gè)基本決策,即適應(yīng)度函數(shù)、染色體編碼和驅(qū)動(dòng)染色體進(jìn)化過程的程序。首先,PCGA的適應(yīng)度函數(shù)是基于性能指標(biāo)(例如,情感極性預(yù)測(cè)的準(zhǔn)確性)開發(fā)的。其次,由于所提出服務(wù)的各組件應(yīng)持續(xù)完善,因此有多個(gè)染色體需要同時(shí)編碼和共同進(jìn)化。在每個(gè)進(jìn)化周期中,一個(gè)最佳染色體(例如,預(yù)測(cè)特征、社交媒體來源、系統(tǒng)參數(shù))與其他染色體進(jìn)行交換。憑借所有必要的信息,每個(gè)染色體代表了一個(gè)可行的預(yù)測(cè),其適應(yīng)性可以得到相應(yīng)的評(píng)估。
3情感分析的概率語言建模
最初,“語言模型”這一術(shù)語在語音識(shí)別領(lǐng)域得到了廣泛的研究,它指的是一種概率分布,代表了語言生成的統(tǒng)計(jì)規(guī)律性[10]。換句話說,語言模型是一個(gè)概率函數(shù),為從某些詞匯表中抽取的字符串分配概率質(zhì)量。在信息檢索(IR)的背景下,語言模型Md被用來估計(jì)文檔d生成查詢q的概率。特別是,這種概率推理被用來模仿文檔“相關(guān)性”的概念,即文檔d相對(duì)于q的相關(guān)性?;緐nigram語言模型是根據(jù)以下公式定義的:
P(q |d)∝P(q|Md)=∏t ∈q P(t |Md)(1)
P(t |Md)=(1-λ)PML (t |Md)+λPINF(t |MD)(2)
PML(t|Md)=tf(t,d)d(3)
其中,Md是文檔d的語言模型。采用Jelinek-Mercer平滑方法,根據(jù)最大似然模型PML(t | Md)和整個(gè)集合的最大似然模型PML(t | MD)來估計(jì)文檔生成查詢?cè)~t的概率(即P(t| Md))。λ是Jelinek-Mercer平滑參數(shù)。平滑過程用于緩解在文檔中找到的查詢?cè)~概率過度估計(jì)的問題,以及未在文檔中找到的詞概率低估的問題。函數(shù)tf(t, d)返回詞t在文檔d中的詞頻,而|d|是通過文檔中包含的標(biāo)記數(shù)量來衡量的文檔長度。
然而,先前的研究發(fā)現(xiàn),將相關(guān)上下文的查詢相關(guān)詞的概率應(yīng)用于文檔語言模型,而不是基于整個(gè)文檔集合(即一般的產(chǎn)品評(píng)論上下文)估算的單個(gè)查詢?cè)~的概率,將導(dǎo)致更有效的平滑過程,因此帶來良好的IR性能。遵循類似的想法,開發(fā)了一種推斷性語言模型,用來計(jì)算文檔d(例如,產(chǎn)品評(píng)論)生成在情感詞典(SL)中找到的詞t的概率。為了確保更穩(wěn)健和有效的平滑過程,推斷性語言模型可以考慮與相關(guān)在線評(píng)論上下文中的意見指標(biāo)相關(guān)的詞(意見證據(jù))。特別是,基于在線評(píng)論上下文的上下文敏感文本挖掘過程發(fā)現(xiàn)相關(guān)的意見證據(jù)。然后,上下文敏感意見評(píng)分的推斷性語言模型定義如下。
P(SL |d)∝P(SL |Md)=∏t∈SLP(t |Md)(4)
P(t |Md)=(1-λ)PML (t |Md)+λPINF(t |Md)(5)
PINF(t |Md)=tanh(∑(t→ t')∈OE P(t→ t')PML(t' |Md))(6)
其中,P(SL|d)是文檔語言模型,用于估計(jì)文檔d生成情感詞典(SL)中定義的意見指標(biāo)的概率。然而,為了解決情感詞典可能無法捕捉問題領(lǐng)域所有可能情感的常見問題(例如,缺少上下文敏感的意見證據(jù)),文章提出的語言模型可以通過推斷性語言模型 PINF(t | Md) 考慮文檔中包含的其他意見證據(jù)。上下文敏感的意見證據(jù)集合OE根據(jù)上下文敏感的文本挖掘技術(shù)動(dòng)態(tài)生成。
術(shù)語關(guān)聯(lián)(術(shù)語推理)的形式t→ t'被應(yīng)用于推斷性語言模型,以計(jì)算文檔生成一個(gè)術(shù)語(例如,意見指標(biāo))的概率,該術(shù)語與情感詞典中捕獲的另一個(gè)意見指標(biāo)在上下文上相關(guān)聯(lián)。為了便于實(shí)施,文章僅包括OE中捕獲的每個(gè)意見指標(biāo)t的前χ個(gè)術(shù)語關(guān)聯(lián)。應(yīng)當(dāng)注意的是,d生成t'涉及一定程度的不確定性。因此,PML(t'|Md)的最大似然估計(jì)通過因子P(t→ t')進(jìn)行調(diào)整。雙曲正切函數(shù)被應(yīng)用于調(diào)整概率函數(shù)PINF(t|Md),使其值落在單位區(qū)間內(nèi)。
4討論與總結(jié)
研究的主要理論貢獻(xiàn)包括設(shè)計(jì)和開發(fā)了一個(gè)新穎的大數(shù)據(jù)流分析框架,命名為BDSASA,用于近乎實(shí)時(shí)的消費(fèi)者情緒分析。文章的另一個(gè)主要貢獻(xiàn)是展示了一個(gè)概率推斷性語言模型,用于分析在線社交媒體生成的不斷演變的大數(shù)據(jù)流中嵌入的情緒。研究的商業(yè)意義在于,業(yè)務(wù)經(jīng)理和產(chǎn)品設(shè)計(jì)師可以應(yīng)用所提出的大數(shù)據(jù)流分析框架,以更有效地分析和預(yù)測(cè)消費(fèi)者對(duì)產(chǎn)品和服務(wù)的偏好。據(jù)此,他們可以采取積極的商業(yè)策略來簡化營銷或產(chǎn)品設(shè)計(jì)操作。
當(dāng)前工作的一個(gè)局限性是所提出的框架尚未在實(shí)證環(huán)境中進(jìn)行測(cè)試。將在未來的實(shí)踐中致力于基于從網(wǎng)絡(luò)上收集的現(xiàn)實(shí)消費(fèi)者評(píng)論和社交媒體消息來評(píng)估BDSASA框架的有效性和效率。另一方面,文章將繼續(xù)完善所提出的概率推斷性語言模型,以更好地預(yù)測(cè)情緒極性。例如,消費(fèi)者可能通過社交網(wǎng)絡(luò)與其他消費(fèi)者聯(lián)系。當(dāng)分析評(píng)論的情緒極性時(shí),可以將這種連接特征納入推斷性語言模型中。此外,將使用所提出的PCGA微調(diào)概率意見評(píng)分的預(yù)測(cè)閾值。最后,將在真實(shí)的電子商務(wù)環(huán)境中對(duì)所提出的大數(shù)據(jù)流分析服務(wù)進(jìn)行可用性研究。
參考文獻(xiàn):
[1]王科,夏睿.情感詞典自動(dòng)構(gòu)建方法綜述[J].自動(dòng)化學(xué)報(bào),2016,42(4):495.
(下轉(zhuǎn)第117頁)
九江學(xué)院學(xué)報(bào)(自然科學(xué)版)2024年3期