楊艷霞
(武漢科技大學(xué)城市學(xué)院信息工程學(xué)部 武漢 430083)
?
基于本體的旅游網(wǎng)絡(luò)評論情感分析與預(yù)警系統(tǒng)*
楊艷霞
(武漢科技大學(xué)城市學(xué)院信息工程學(xué)部武漢430083)
摘要挖掘旅游海量評論信息,智能分析用戶情感,從而改進旅游產(chǎn)品和服務(wù),是旅游電子商務(wù)成功的關(guān)鍵。論文從旅游網(wǎng)絡(luò)評論信息出發(fā),研究微博情感詞匯本體的構(gòu)建和基于貝葉斯分類算法的情感分類,實現(xiàn)了一個基于本體的旅游網(wǎng)絡(luò)評論情感分析和預(yù)警系統(tǒng)。系統(tǒng)不僅節(jié)省了大量人力和物力,而且對制定合理的旅游政策具有一定的參考價值。
關(guān)鍵詞本體; 貝葉斯分類; 情感分析; 預(yù)警
Class NumberTP391.1
在當(dāng)今信息化時代背景下,信息的傳播異常迅猛。一條網(wǎng)絡(luò)評論的產(chǎn)生不容忽視。由于網(wǎng)絡(luò)評論的時效性強,對于意見類訴求若不及時響應(yīng),往往對企業(yè)形象造成負面影響。特別是在旅游領(lǐng)域十分重視網(wǎng)絡(luò)輿論產(chǎn)生的引導(dǎo)效應(yīng)。文本情感分析主要是進行情感極性的判斷,即判斷一條評論信息所表達情感是正、負或中性情感[1]。情感分析目的是從文本中挖掘用戶表達的觀點和情感極性,借助有監(jiān)督學(xué)習(xí)或無監(jiān)督學(xué)習(xí)等方法,讓機器理解文本的情感傾向。有了情感分析這一工具,對網(wǎng)絡(luò)評論的自動分析與預(yù)警成為可能。在這樣的現(xiàn)狀下,設(shè)計了這個系統(tǒng),用于抓取旅游行業(yè)的網(wǎng)絡(luò)評論并分析評論文本的情感傾向,再向用戶推送適當(dāng)?shù)念A(yù)警消息。
2.1本體概念及構(gòu)建方法
本體也稱為Ontology,本體的應(yīng)用是為了構(gòu)建領(lǐng)域模型。例如,在知識工程中,一個本體提供了關(guān)于術(shù)語概念和關(guān)系的詞匯集,通過該詞匯集可以對一個領(lǐng)域進行建模。在語義Web中,本體具有非常重要的地位,它是解決語義層次上Web信息共享和交換的基礎(chǔ)。
從詳細程度與領(lǐng)域依賴度兩個方面對本體進行劃分。詳細程度是一個相對的、比較模糊的概念,指描述或刻畫建模對象的程度。詳細程度高的稱作參考(reference)本體,詳細程度低的稱為共享(share)本體。依照領(lǐng)域依賴程度,可以細分為頂層本體、領(lǐng)域本體、任務(wù)本體和應(yīng)用本體四類。頂層本體描述的是最普遍的概念及概念之間的關(guān)系,如空間、時間、事件、行為等,與具體的應(yīng)用無關(guān),其他種類的本體都是該類本體的特例;領(lǐng)域本體描述的是某個特定領(lǐng)域(如醫(yī)藥、地理等)中的概念及概念之間的關(guān)系;任務(wù)本體描述的是特定任務(wù)或行為中的概念及概念之間的關(guān)系;應(yīng)用本體描述的是依賴于特定領(lǐng)域和任務(wù)的概念及概念之間的關(guān)系。
構(gòu)建情感詞匯本體是為了更充分地表達情感詞匯之間所蘊含的語義信息,如詞匯的情感傾向性以及詞匯間的相似、遞進和轉(zhuǎn)折關(guān)系等,方便情感詞的組織和共享,從而為微博話題的傾向性分析提供有效的分析依據(jù)[2]。
2.2微博情感詞匯本體構(gòu)建
中文微博作為互聯(lián)網(wǎng)的產(chǎn)品,其文本信息形式多元化,用于表達傾向性的詞語在不斷變化,因此核心本體并不需要一次性構(gòu)建完成。所以,在這個階段只需要收集能夠表達人們意見的比較重要的核心概念和關(guān)系,建立基礎(chǔ)情感詞本體。本文主要抽取HowNet公布的情感分析用詞集中的核心詞匯作為構(gòu)建本體的信息來源。
2.2.1情感詞匯知識的收集與分析
基礎(chǔ)情感詞匯本體中的詞匯選自HowNet中已經(jīng)標注過的情感分析用詞語集,該詞匯集所包含的詞匯種類(中文)和數(shù)量以及本體中選用的情感詞匯的數(shù)量如表1所示。
表1 HowNet情感分析用詞數(shù)量及本體用詞數(shù)量
否定詞、程度副詞以及表示轉(zhuǎn)折和遞進的關(guān)系連詞會對主觀句的傾向性產(chǎn)生影響,因此,本文又建立否定詞、程度副詞和連詞集。根據(jù)知網(wǎng)中發(fā)布的否定詞、程度副詞和連詞詞語集,共收錄“沒,沒有,不,不是”等18個否定副詞,和188個程度副詞,40個連詞,具體如表2所示[3]。
表2 部分否定詞、程度副詞和連詞集
2.2.2情感詞匯本體的形式化表示
情感詞匯本體構(gòu)建完成后,本文使用OWL描述語言對情感詞匯本體進行形式化描述,也就是用OWL語言中定義的元本體對提取出的概念以及屬性關(guān)系進行形式化描述,最重要的是描述類、子類、屬性和它們各自具有的特性。本論文利用protege工具構(gòu)建本體,完成后的本體以O(shè)WL為后綴的OWL文件格式保存。
概念類的表示在protege中有兩種基本概念:整體概念(whole concept)和關(guān)系概念(relational concept)。整體概念的編輯界面如圖1所示。
圖1 Protege整體概念編輯界面
利用protege工具構(gòu)建情感詞匯本體的重要類及其屬性的界面圖如圖2。
圖2 Protege構(gòu)建類的界面圖
網(wǎng)絡(luò)情感詞需要長時間的關(guān)注和搜集,現(xiàn)今還沒有現(xiàn)成可用的情感詞典,因此通過社交網(wǎng)絡(luò)、博客、BBS、評論、微博,將收集并標注具有感情色彩的詞語加入情感詞匯本體之中是必要的補充。
2.3語料庫的組成
本文主要對旅游網(wǎng)絡(luò)評論信息進行分類,使用八爪魚采集器抓取的旅游網(wǎng)絡(luò)評論信息,其采集信息如圖3所示。
圖3 采集微博信息(訓(xùn)練集)
3.1系統(tǒng)框架
圖4 系統(tǒng)框架示意圖
3.2各模塊的實現(xiàn)
3.2.1旅游評論數(shù)據(jù)爬取
旅游評論信息的采集是指從旅游網(wǎng)站中抽取相應(yīng)的評論信息,是旅游評論情感文本分析的基礎(chǔ)。其中評論信息的采集使用的是網(wǎng)絡(luò)爬蟲的工具來獲取的。
3.2.2文本預(yù)處理
文本預(yù)處理過程是整個系統(tǒng)關(guān)鍵的一步,由于機器無法自動判斷整個文本的類別屬性,只有人為將中文文本數(shù)據(jù)處理為機器可以識別判斷的數(shù)據(jù),才能更好地處理數(shù)據(jù)[4]。其實現(xiàn)過程如圖5所示。
圖5 微博文本預(yù)處理流程圖
第一步:準備階段,將抓取好的微博數(shù)據(jù)為后面文本預(yù)處理做準備。
第二步:由于抓取的評論信息有很多沒有實際意義,為了避免影響文本分類結(jié)果,因此需要處理文本,過濾不必要的信息,沒必要處理,因此直接過濾掉。
第三步:停用詞過濾,由于文本中可能會存在大量的對于文本分類沒有影響的內(nèi)容。
3.2.3中文分詞實現(xiàn)
在中文文本中,詞是構(gòu)建文本信息的基本單位,需要對文本進行預(yù)處理就是對文本進行分詞處理,分詞的結(jié)果將會直接影響文本分類的結(jié)果。本論文主要借助于非常成熟的分詞工具,Lucene分詞,其作為開源項目,方便用戶直接引用[5]。
嚴格意義上來說,Lucene并不是一個單純的分詞系統(tǒng),它只是提供了分詞功能IKAnalyzer這樣一個接口。通過IKAnalyzer接口,將微博信息進行切片處理,得到一個一個詞或字,并有此行標注起來。因為建立搜索引擎的時候,必須要用到關(guān)鍵字,而關(guān)鍵字就是通過分詞來獲得[6]。
圖6 Lucene分詞流程圖
3.2.4文本分類實現(xiàn)
本文使用貝葉斯算法來實現(xiàn)文本分類,判讀文章關(guān)鍵詞屬于某一類的概率,然后通過比較不同類別的概率,出現(xiàn)在最大概率的文本就直接歸類為該類,樸素貝葉斯算法的文本分類[7~10],其具體實現(xiàn)過程如圖7所示。
圖7 貝葉斯分類器流程圖
貝葉斯算法的實現(xiàn)過程包括以下步驟:
第一步:返回Lucene中分詞系統(tǒng)處理的文本信息,包括分詞結(jié)果,關(guān)鍵詞提取的結(jié)果。
第二步:對于返回的結(jié)果,通過貝葉斯算法來計算關(guān)鍵詞在訓(xùn)練語庫中的概率值,通過排序來找出概率最大的值。
第三步:對于排序的結(jié)果,按照一定的分類規(guī)則,即按照概率最大的就將文本歸類為那一類,來最終獲得分類結(jié)果。
3.2.5信息負面評論的預(yù)警
統(tǒng)計負面信息條數(shù),計算負面信息的條數(shù)占信息總條數(shù)比例,如果該比例達到閾值(自定義),則向用戶推送適當(dāng)?shù)念A(yù)警信息。
針對旅游評論信息文本做情感分析,首先要分析中文情感詞匯本體,理解本體的構(gòu)建。然后網(wǎng)絡(luò)爬蟲收集旅游網(wǎng)站的評論信息,通過樸素貝葉斯算法進行計算、停用詞進行過濾以及Lucene分詞進行分類完成對測試文本的情感傾向進行統(tǒng)計,其中包含正向、負向和中性情感。最后通過統(tǒng)計各種評論者所產(chǎn)生的情感傾向的百分比來實現(xiàn)對用戶推送適當(dāng)?shù)念A(yù)警功能。本文對旅游評論情感分析做出了一些初步的向用戶推送預(yù)警的功能,有一定的參考價值。
參 考 文 獻
[1] 王曉東,劉倩,陶縣俊.情感Ontology構(gòu)建與文本傾向性分析[J].計算機工程與應(yīng)用,2010,46(30):117-120.
WANG Xiaodong, LIU Qian, TAO Xianjun. Sentiment Ontology construction and text orientation analysis[J]. Computer Engineering and Applications,2010,46(30):117-120.
[2] 劉冬梅.html文本自動分類技術(shù)的研究與工具的實現(xiàn)[D].呼和浩特:內(nèi)蒙古大學(xué),2006.
LIU Dongmei. Automatic Classification research on Html Document And Implentation of The Toll[D]. Hohhot: Inner Mongolia University,2006.
[3] 王曉東,王娟,張征.基于情感詞匯本體的主觀性句子傾向性計算[J].計算機應(yīng)用,2012,32(6):1678-1681,1684.
WANG Xiaodong, WANG Juan, ZHANG Zheng. Computation on orientation for subjective sentence based on sentiment words ontology[J]. Journal of Computer Applications,2012,32(6):1678-1681,1684.
[4] 任麗蕓.搜索引擎中文分詞技術(shù)研究[D].重慶:重慶理工大學(xué),2011.
REN Linwen. Research on Chinese Word Segmentation of Search Engine[D]. Chongqing: Chongqing University of Technology,2011.
[5] 管瑞霞,陸蓓.TFLD:一種中文文本關(guān)鍵詞自動提取方法[J].機電工程,2010,27(9):123-126.
GUAN Ruixia, LU Bei. TFID: a novel Phrase_extraction method for Chinese text[J]. Journal of Mechanical & Electrical Engineering,2010,27(9):123-126.
[6] 鄭家恒,盧嬌麗.關(guān)鍵詞抽取方法的研究[J].計算機工程,2005,31(18):194-196.
ZHENG Jiaheng, LU Jiaoli. Study of An Improved Keywords Distillation Method[J]. Computer Engineering,2005,31(18):194-196.
[7] 管瑞霞.基于基因表達式編程的中文文本關(guān)鍵詞提取算法研究[D].杭州:杭州電子科技大學(xué),2009.
GUAN Ruixia. Research of Keywords Extraction Algorithm for Chinese Text Based on Gene Expression Programming[D]. Hangzhou: Hangzhou Dianzi University,2009.
[8] 鄒永斌,陳興蜀,王文賢.基于貝葉斯分類器的主題爬蟲研究[J].計算機應(yīng)用研究,2009,9(26):3418-3420,3439.
ZOU Yongbin, CHEN Xingshu, WANG Wenxian. Research on focused crawler based on Bayes classifier[J]. Application Research of Computers,2009,9(26):3418-3420,3439.
[9] 條件概率和貝葉斯定理.中國開放教育資源聯(lián)合體[EB/OL] [2013-01-7]. http://www.core.org.cn/NR/rdonlyres/Civil-and-Environmental-Engineering/1-017Computing-and-Data-Analysis-for-Environmental-ApplicationsFall2003/62A96B91-D71B-4734-80E8-E5763316BFA9/0/class03_6.pdf.
[10] 李勇.中文網(wǎng)頁分類研究綜述[J].現(xiàn)代計算機(專業(yè)版),2012(15):3-7.
LI Yong. Chinese web page classification research overview[J]. Modern Computer,2012(15):3-7.
收稿日期:2015年10月8日,修回日期:2015年11月21日
基金項目:湖北省教育廳科學(xué)技術(shù)研究計劃指導(dǎo)性項目:基于Ontology的微博話題識別及傾向性研究(編號:B2015360)資助。
作者簡介:楊艷霞,女,碩士,講師,研究方向:機器學(xué)習(xí)與智能計算。
中圖分類號TP391.1
DOI:10.3969/j.issn.1672-9722.2016.04.020
Tourism Network Comments Sentiment Analysis and Pre-warning System Based on Ontology
YANG Yanxia
(Department of Information Engineering, Wuhan University of Science and Technology City College, Wuhan430083)
AbstractPigging tourism information and opinion, analyzing intelligently user emotion, to improve tourism products and services are the key to the success of tourism e-commerce. This paper embarks from the tourism network review information, how to build the microblogging emotional vocabulary ontology and how to classify emotion based on Naive Bayes classification algorithm are researched, a tourism network comments sentiment analysis and early warning system is implemented based on ontology. It not only saves a large amount of manpower and material resources, but also has certain reference value to establish reasonable tourism policy.
Key Wordsontology, Naive Bayes classifier, sentiment analysis, pre-warning