黃苗黃奎崔歡歡朱國銳
摘要:傳統(tǒng)的輿情分析多采用文本聚類和分類技術,但是由于自然語言自身表達的復雜性和靈活性,文本聚類和分類技術很難從根本上反映話題評論人員對待話題的真實態(tài)度。針對文本聚類和分類技術的局限性,設計了應用于公司輿情分析的改進概念圖算法。改進的概念圖能表示部分概念節(jié)點的傾向性,利用改進的概念圖計算每條評論的健康度,可有效地從語義分析角度計算評論語句的健康度。研究結果表明,應用于公司輿情分析的改進概念圖算法,其正確率普遍高于基于文本聚類和分類技術的輿情分析方法。
鍵詞:概念圖;輿情分析;文本傾向性;健康度
DOIDOI:10.11907/rjdk.161459
中圖分類號:TP312
文獻標識碼:A文章編號文章編號:16727800(2016)009002203
基金項目基金項目:國家自然科學基金項目(51178373);科技部科學技術支持項目(2008BAH37B05060);陜西省自然科學基金項目(2014JM2-6114)
作者簡介作者簡介:黃苗(1989-),女,河南洛陽人,西安建筑科技大學信息與控制工程學院碩士研究生,研究方向為人工智能;黃奎(1992-),男,河南洛陽人,北京京東尚科信息技術有限公司工程師,研究方向為輿情分析;崔歡歡(1989-),女,河南洛陽人,西安建筑科技大學信息與控制工程學院碩士研究生,研究方向為人工智能。
0引言
企業(yè)危機事件爆發(fā)時,負面信息在各個網(wǎng)站迅速傳播。如果企業(yè)不及時了解輿情態(tài)勢,未能及時作出正確的澄清和引導,輿情信息對企業(yè)的影響將會變得不受控制。傳統(tǒng)輿情分析算法多采用文本聚類和分類技術,能有效地挖掘出熱點話題,但是不能較為準確地分析出話題評論人員的態(tài)度及其量化值。本文以自然語言理解語義分析理論為基礎[1],在分析了詞匯褒貶性和副詞強度的基礎上,設計了應用于公司輿情分析的改進概念圖算法,該算法能較好地分析出話題評論人員的態(tài)度及其量化值。
1概念圖基本理論
概念圖(Conceptual Graphs, CGs)是由美國的計算機科學家John F Sowa提出的一種知識表示方法。
定義1:概念圖可以定義為由概念節(jié)點、關系節(jié)點、有向弧組成的有向聯(lián)通圖[25],即:
CGs=(Concept,Relation,F(xiàn))(1)
其中,Concept = {C1,C2,.....,Cm}表示概念圖的概念節(jié)點集合,用來表示實體、動作、狀態(tài)和事件等;Relation={R1,R2,.....,Rn}表示概念圖的關系節(jié)點集合,用來表示概念節(jié)點和概念節(jié)點之間的關系;F=(Concept×Relation ) ∪(Relation×Concept)是有向弧集合。
概念圖的表示形式有兩種[6-7],第一種是圖形表示形式。概念節(jié)點用矩形表示,關系節(jié)點用橢圓表示,概念節(jié)點和關系節(jié)點間的關系用有向弧表示。例如,語句“A cat eats the meat with the paw”的圖形表示法如圖1所示。
第二種是線性表示形式。概念節(jié)點用方括號表示,關系節(jié)點用圓括號表示。圖1用線性形式表示為:
[EAT]—(AGNT) →[CAT]
(OBJ) →[MEAT]
(MANR) →[PAW].
概念圖的圖形表示形式雖然形象、直觀,但是采用線性表示形式,能更好地在計算機中進行表示和處理。因此,本文采用概念圖的線性表示形式。
2改進的概念圖及健康度計算方法
2.1改進的概念圖知識表示方法
在傳統(tǒng)概念圖的知識表示中,概念節(jié)點自身的傾向性從未在概念圖中反映出來。本文對部分概念節(jié)點引入了詞語的褒貶傾向性,概念節(jié)點的傾向性值用T(Tendency)表示,強度值用D(Degree)表示。但有些概念節(jié)點并不需要賦傾向性值,因為在對評論句子進行傾向性分析時,材料、地點和類型等名詞之間的關系并沒有表示出句子所表示的立場,而作為句子的修飾詞語和句子的謂語動詞,則表現(xiàn)出該動作受體的立場。最后根據(jù)情感詞庫和副詞強度評分表對傳統(tǒng)概念圖賦傾向性值,表1展示了概念圖中關系對傾向性值的生成情況。
2.2傾向性值賦值規(guī)則
(1)HowNet情感詞典。在中文的文本處理方面最有權威的資源是HowNet。目前,HowNet最新版的詞典中,中文正面的情感詞語有836個,中文負面情感的詞語有1 254個[8]。其中正面傾向詞匯的T值為+1,負面詞匯的T值為-1。部分HowNet情感詞語如表2所示。
(2)手動添加網(wǎng)絡情感詞匯。因為網(wǎng)絡新詞更新快,且在正規(guī)詞典里沒有出現(xiàn),所以必須針對特定公司,收錄有褒貶性的網(wǎng)絡情感詞語[9]。其中正面傾向詞匯的T值為+1,負面詞匯的T值為-1。以京東商城為例,需要手動添加的部分負面詞匯和正面詞匯如表3所示。
(3)程度副詞和否定詞:①程度副詞:程度副詞分為3個等級,分別賦程度值,程度值用D表示。具體賦值如表4所示;②否定副詞:否定副詞也用T表示,如:“不”、“沒”、“無”等,其T值為-1。
2.3改進的概念圖健康度計算方法
定義2:健康度是評論者對該公司做的某件事的一個態(tài)度,記為H。健康度的計算方法如下:
Step1:計算所有關系(ADV)中被副詞修飾的動詞或形容詞概念節(jié)點的傾向性值,該被修飾的概念節(jié)點傾向性值為該副詞強度值和此概念節(jié)點傾向性值的乘積。如果關系(ADV)連接的概念節(jié)點中有一個沒有傾向性,則不進行此步的計算。
Step2:計算所有關系(DEC)中被形容詞修飾的概念節(jié)點的傾向性值和計算關系(DEC)的傾向性值,該被修飾的概念節(jié)點傾向性值等于被修飾的概念節(jié)點傾向性值和修飾的概念節(jié)點傾向性值的乘積。(DEC)的傾向性值記為Tend(DEC),如果與關系(DEC)中被修飾的概念節(jié)點和關系(OBJ)連接,則不計算此關系的Tend(DEC);如果沒有連接,則此關系的Tend(DEC)為關系(DEC)連接的兩個概念節(jié)點傾向性值的乘積。如果關系(DEC)連接的概念節(jié)點中有一個沒有傾向性,則不進行此步的計算。
Step3:計算所有關系(ISA)的傾向性值,該傾向性值記為Tend(ISA)。該關系的傾向性值即為與關系(ISA)相連接的兩個概念節(jié)點傾向性值的乘積。如果關系(ISA)連接的概念節(jié)點中有一個沒有傾向性,則不進行此步的計算。
Step4:計算所有關系(OBJ)的傾向性值,該傾向性值記為Tend(OBJ),該關系的傾向性值為與關系(OBJ)相連接的兩個概念節(jié)點傾向性值的乘積。如果關系(OBJ)連接的概念節(jié)點中有一個沒有傾向性,則不進行此步的計算。
Step5:計算健康度,此段評論的健康度等于以上所有3個關系傾向性值的相加,即:
H=Tend(DEC)+Tend(ISA)+Tend(OBJ)(2)
3算法示例
3.1概念圖傾向性賦值
根據(jù)情感詞庫和副詞強度評分表為上述的概念圖賦傾向性值和程度值。例如:“可惡的京東,賣給我二手貨,以后不買京東的東西了!”
主題句的概念圖中關系(OBJ)、(DEC)對傾向性值生成起作用,與修飾關系(DEC)連接的修飾概念節(jié)點[可惡的]賦值為-1,[京東]、[東西]、[京東的]賦值為+1。與(OBJ)關系連接的兩個概念節(jié)點分別賦值,[賣]賦值為+1,[二手貨]賦值為-1。然后為另外一個與(OBJ)關系連接的兩個概念節(jié)點分別賦值,[不買]賦值為-1。所以主題句賦值后的概念圖為:
[賣]—(OBJ)→[二手貨] →(T) →[-1]
(AGNT)→[京東]—(DEC)←[可惡的]→(T) →[-1]
(T) →[+1]
(DIR)→[我]←(AGNT)←[不買]—(OBJ)→[東西]—(DEC)←[京東的]→(T)→[+1]
(T) →[+1]
(T) →[-1]
(T) →[+1].
3.2健康度計算
計算主題句的健康度,過程如下:①主題句里沒有程度副詞,所以步驟1省略;②計算關系(DEC)的傾向性值,主題句里第一個(DEC)關系是:[京東]←(DEC) ←[可惡的],記為(DEC)1。該關系中被修飾的概念節(jié)點沒有與關系(OBJ)連接,所以,計算Tend(DEC)1等于該關系連接的概念節(jié)點的乘積,即(-1)*(+1)=-1;第二個(DEC)關系是:[東西] ←(DEC) ←[京東的],記為(DEC)2,由于該關系中被修飾的概念節(jié)點與關系(OBJ)連接,所以不計算Tend(DEC)2,概念節(jié)點[東西]的傾向性值為[東西]和[京東的]傾向性值的乘積,即(+1)*(+1)=+1;③主題句里沒有(ISA)關系,所以此步驟省略;④第一個(OBJ)關系:[賣] →(OBJ) →[二手貨],記為(OBJ)1,Tend(OBJ)1=(+1)*(-1)=-1;第二個(OBJ)關系:[不買] →(OBJ) →[東西],記為(OBJ)2,Tend(OBJ)2= (-1)*(+1)=-1;⑤計算可得健康度為-3。
此評論文本的健康度表明,該評論者對該公司的某個事件持否定態(tài)度,且否定度為3。
4實驗結果及分析
本試驗系統(tǒng)采用Java語言來實現(xiàn),操作系統(tǒng)為Windows7,CPU為AMD 四核A8處理器,內(nèi)存為4G。
本文收集了新浪微博關于京東商城5個主題的1 000多條評論,通過人工測試某評論,健康度為正(負),而實驗系統(tǒng)測試該評論的健康度也為正(負),此時為正確結果。最后再用KNN(K最近鄰)、SVM(支持向量機)、Naive Bayes(樸素貝葉斯)幾種分類算法分別測試該1 000多條評論的正、負、中立態(tài)度。通過比較正確率說明本算法的優(yōu)越性,同時用精確率來說明本算法的可靠性。
設某個主題的總評論數(shù)為n,系統(tǒng)測試為正確結果的評論數(shù)為m,則系統(tǒng)測試的正確率為:
正確率=(m/n)*100%(3)
系統(tǒng)測試的健康度和人工測試的健康度的差值,與人工測試的健康度比值即為每條評論的精確度,再通過每條評論精確度的加權平均得到精確率。則系統(tǒng)測試的精確度和精確率公式如下:
精準度=1-|人工測試的評論健康度-系統(tǒng)測試的評論健康度||人工測試的評論健康度|(4)
精準度=1m∑i=mi=1|人工測試的評論健康度-系統(tǒng)測試的評論健康度||人工測試的評論健康度|×100%(5)
本測試系統(tǒng)的正確率和精確率及其它算法測試的正確率結果如表5所示。
從表5可以看出,本算法的正確率都在83%以上,普遍高于其它算法,同時也有很高的精確率。
5結語
本文針對網(wǎng)絡上關于公司的輿情信息,設計了一個應用于公司輿情分析的改進概念圖算法。綜合分析表明,本算法對短評論有較好的精確度,對長評論句子的精確度有誤差。本算法正確率普遍高于KNN算法、SVN算法和Naive Bayes算法,同時本算法有較高的精確率。采用該方法,在微博和論壇上摘取評論者對某個特定公司的評論,可以自動、實時地分析出評論者對于該公司某事件的態(tài)度。同時本算法首次將概念圖的知識表示方法應用到公司的輿情分析系統(tǒng)中,對其它領域的輿情分析系統(tǒng)具有一定參考價值。
參考文獻參考文獻:
[1]STPHEN D RICHARDSON, GEORGE E HEIDORN, KEREN JENSEN. Natural language processing: the PLNLP approach[M]. New York: Kluwer Academic,1993:126128.
[2]SOWA,J F.Conceptual structures: information processing in mind and machine[M].AddisonWesley Publishing Company,1984.
[3]SOWA J F. Conceptual graphs for database interface[J].IBM J Res & Dev,1976,20(4):336357.
[4]劉培奇,凡星,段中興.傾向性文本的概念圖過濾技術的研究[J].微電子學與計算機,2012,29(12):8487.
[5]劉培奇,李增智,趙銀亮.擴展產(chǎn)生式規(guī)則知識表示方法[J].西安交通大學學報,2004,38(6):587590.
[6]吳彬,羅鈞.基于模糊認知圖的資源描述框架(RDF)研究[J].微電子學與計算機,2009,26(3):4244.
[7]劉培奇,李增智.基于模糊含權概念圖的主觀題自動閱卷方法研究[J].計算機應用研究,2009,26(12):45654567.
[8]張鵬星.基于文本傾向性分析的網(wǎng)絡輿情分析及其趨勢預測[D].昆明:云南財經(jīng)大學,2013.
[9]張超.文本傾向性分析在輿情監(jiān)控系統(tǒng)中的應用研究[D].北京:北京郵電大學,2008.
責任編輯(責任編輯:黃?。?