覃鐐銘 柯寧寧
◆摘? 要:隨著我國人民大眾的生活水平普遍提高,對生活質(zhì)量的越來越重視,越來越多的人選擇在空閑之余外出旅游,而且隨著互聯(lián)網(wǎng)的快速發(fā)展,再加上智能終端的普及,基本上人人都可以在任何時(shí)間任何網(wǎng)絡(luò)信號普及到的地方,通過旅游網(wǎng)站獲取旅游景點(diǎn)的信息及發(fā)表評論和分享旅游游記,旅游網(wǎng)站對這些評論數(shù)據(jù)缺乏有效的管理和利用,大部分企業(yè)的評論系統(tǒng)都會讓客戶在評論時(shí)評定一個(gè)“星級”或者“等級”來對旅游評論信息進(jìn)行分類。但是這種分類方法不是很靈活,過于死板,本文針對這種狀況,設(shè)計(jì)一個(gè)基于貝葉斯分類的對評論數(shù)據(jù)文本自身進(jìn)行分析,得出評論文本的情感傾向,并且過濾其中的惡意評論的系統(tǒng)。
◆關(guān)鍵詞:情感分析;樸素貝葉斯;自然語言處理;結(jié)構(gòu)化感知機(jī)
在旅游領(lǐng)域,各大企業(yè)都對用戶評論、游記、旅游心得等用戶的直接反饋信息極為注重,這些用戶評論、游記、旅游心得等都是用戶在體驗(yàn)自身企業(yè)服務(wù)或者游玩景點(diǎn)的時(shí)候的直接感受,而往往其他客戶在考慮是否出行時(shí),受這些評論信息的影響是巨大的,既“好評”如潮的旅游景點(diǎn)往往更能吸引客戶的出行。因此大部分企業(yè)的評論系統(tǒng)都會讓客戶在評論時(shí)評定一個(gè)“星級”或者“等級”來對旅游評論信息進(jìn)行分類。但是這種分類方法不是很靈活,過于死板,有時(shí)候“星級”高的旅游評論不一定是所謂的“好評”,而“星級”低的旅游評論信息也不一定都是完全的“差評”。因此傳統(tǒng)依賴用戶評分的去判斷情感傾向的分類方法已經(jīng)不適應(yīng)現(xiàn)在的網(wǎng)絡(luò)環(huán)境了,需要一個(gè)針對旅游評論文本信息本身的分類方法。
1評論數(shù)據(jù)處理框架
首先對獲取到的評論數(shù)據(jù)進(jìn)行預(yù)處理,包括去掉重復(fù)的數(shù)據(jù),然后使用預(yù)訓(xùn)練的感知機(jī)分詞模型對去重后的數(shù)據(jù)進(jìn)行分詞,然后就是去除其中的停用詞。在數(shù)據(jù)預(yù)處理完之后,使用預(yù)訓(xùn)練的貝葉斯模型進(jìn)行分類的預(yù)測,然后過濾其中的惡意評論,最終得出結(jié)果。評論數(shù)據(jù)處理框架的如圖1所示。
1.1機(jī)械去重
因?yàn)楝F(xiàn)在大多數(shù)的旅游網(wǎng)站都自帶評論功能,用戶不作評論的話會自動(dòng)進(jìn)行潛在評論,這些評論往往是重復(fù)的而且沒有什么實(shí)際意義。本文直接采取對比兩條評論是否一樣來去重。
1.2中文分詞
中文分詞是自然語言處理的一個(gè)極其重要的步驟,分詞的準(zhǔn)確率對下一步的去停用詞和情感分析有極大的影響,本文采用結(jié)構(gòu)化感知機(jī)去預(yù)測句子的切割序列。結(jié)構(gòu)化預(yù)測就是給定一個(gè)模型λ及打分函數(shù)scoreλ(·),利用打分函數(shù)給一些備選結(jié)構(gòu)打分,選取分?jǐn)?shù)最高的結(jié)構(gòu)作文預(yù)測輸出。
所以結(jié)構(gòu)化感知機(jī)算法就應(yīng)該如下:
(1)讀入樣本(x(i),y(i)),執(zhí)行結(jié)構(gòu)化預(yù)測公式(3)
(2)與預(yù)期結(jié)果對比,正確則獎(jiǎng)勵(lì)特征函數(shù)的權(quán)重增加[ω←ω+Φx(i),y(i)],錯(cuò)誤則[ω←ω-Φx(i),y(i)]
回到中文分詞,中文分詞可以看作是給文本進(jìn)行序列標(biāo)注的問題,即給每個(gè)字標(biāo)注標(biāo)簽,只有在在特定標(biāo)簽的時(shí)候切割句子,本文定義了有四種標(biāo)簽的標(biāo)注集{B,M,E,S},分別代表這一個(gè)詞語的開始,中間,結(jié)束和單字詞語。序列標(biāo)注的最大特點(diǎn)就是標(biāo)簽之間的依賴性,在隱馬可洛夫模型中,這種模型是利用初始狀態(tài)向量和狀態(tài)轉(zhuǎn)移概率矩陣來體現(xiàn)這種依賴性。
1.3去除停用詞
停用詞一般是指文字中的代詞、語氣詞、稱謂詞和地點(diǎn)副詞等,這些詞語對于情感分析的影響不大,去除有助于提高系統(tǒng)的運(yùn)行效率。本文通過將一些常用的無意義的符號和停用詞構(gòu)建成停用詞詞典,然后使用詞典匹配的方式,過濾掉評論中的停用詞。
1.4貝葉斯分類
樸素貝葉斯是從古典的數(shù)學(xué)理論--貝葉斯原來得出的一種分類模型,它具有扎實(shí)的數(shù)學(xué)基礎(chǔ)和穩(wěn)定的分類效率。貝葉斯分類是先用概率統(tǒng)計(jì)對訓(xùn)練樣本進(jìn)行分類,然后結(jié)合先驗(yàn)概率和后驗(yàn)概率,得出結(jié)果,避免只使用先驗(yàn)概率來以偏概全。
1.4過濾惡意評論
惡意評論的過濾就是將前面貝葉斯分類中被分類到惡意評論的文本進(jìn)行過濾。
2結(jié)束語
本文使用結(jié)構(gòu)化感知算法訓(xùn)練出一個(gè)線性模型,用來預(yù)測句子的分割序列,達(dá)到分詞的效果,結(jié)合樸素貝葉斯分類算法提取訓(xùn)練樣本的特征,構(gòu)建貝葉斯模型,預(yù)測評論文本的情感傾向,并且過濾其中的惡意評論。通過這種無監(jiān)督的機(jī)器學(xué)習(xí)方法,克服了傳統(tǒng)的基于詞典的中文分詞和情感分析的對與OOV現(xiàn)象無可奈何的問題,擁有一定的解決新詞的能力,但是為了更好的適應(yīng)網(wǎng)絡(luò)時(shí)代的發(fā)展,應(yīng)該定期更新預(yù)料再次訓(xùn)練獲取模型,從而達(dá)到更準(zhǔn)確的結(jié)果。
參考文獻(xiàn)
[1]林欽,劉鋼.基于情感計(jì)算的商品評論分析系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件,2014(12):39-44.
[2]肖江,王曉進(jìn).基于SVM的在線商品評論的情感傾向性分析[J].信息技術(shù),2016(7):172-175.
[3]黃仁,張衛(wèi).基于word2vec的互聯(lián)網(wǎng)商品評論情感傾向研究[J].計(jì)算機(jī)科學(xué),2014,34(8):2317-2321.
[4]宋恩梅,何帆.基于多網(wǎng)站的商品評論傾向性研究:以手機(jī)為例[J].圖書館學(xué)研究,2016(2):85-92.
[5]郭若男.基于Hadoop平臺的在線數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京郵電大學(xué),2015.