黃 敏,胡學(xué)鋼
(1.安徽廣播電視大學(xué)遠(yuǎn)程教育中心,安徽合肥230022;2.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽合肥230009)
網(wǎng)絡(luò)輿情分析技術(shù)及系統(tǒng)構(gòu)建
黃 敏1,胡學(xué)鋼2
(1.安徽廣播電視大學(xué)遠(yuǎn)程教育中心,安徽合肥230022;2.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽合肥230009)
針對(duì)網(wǎng)絡(luò)輿情分析的實(shí)際應(yīng)用,在綜合考慮網(wǎng)絡(luò)輿情特征和人們認(rèn)知規(guī)律的基礎(chǔ)上,重點(diǎn)進(jìn)行輿情熱點(diǎn)挖掘、文本傾向性分析兩個(gè)關(guān)鍵技術(shù)的研究并在此基礎(chǔ)上構(gòu)建了網(wǎng)絡(luò)輿情分析系統(tǒng).通過(guò)將實(shí)驗(yàn)結(jié)果與權(quán)威數(shù)據(jù)對(duì)比,驗(yàn)證了相應(yīng)方法的有效性.
網(wǎng)絡(luò)輿情;信息采集;熱點(diǎn)挖掘;文本傾向性分析
隨著Internet技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)己經(jīng)確立了它第四大媒體的主導(dǎo)地位,成為社會(huì)公眾發(fā)布信息、獲取信息和傳遞信息的主要載體.網(wǎng)絡(luò)輿情作為社會(huì)輿情在網(wǎng)絡(luò)中的延伸,不僅反映了現(xiàn)實(shí)社會(huì)中的各類問(wèn)題,而且會(huì)對(duì)現(xiàn)實(shí)社會(huì)產(chǎn)生重大影響.因此,對(duì)網(wǎng)絡(luò)輿情分析技術(shù)的研究已成為一項(xiàng)緊迫而又重要的課題.在網(wǎng)絡(luò)輿情分析中,網(wǎng)絡(luò)輿情信息獲取的快與準(zhǔn)、內(nèi)容分析的確定性、輿情研判的準(zhǔn)確性、輿情響應(yīng)及時(shí)性、信息跟蹤的及時(shí)性等目標(biāo)的實(shí)現(xiàn)是網(wǎng)絡(luò)輿情分析研究的重中之重,其核心技術(shù)即輿情分析引擎.
針對(duì)網(wǎng)絡(luò)輿情分析的實(shí)際應(yīng)用,本文在綜合考慮網(wǎng)絡(luò)輿情特征和人們認(rèn)知規(guī)律的基礎(chǔ)上,研究網(wǎng)絡(luò)輿情分析中網(wǎng)絡(luò)信息的采集與提取、話題發(fā)現(xiàn)與跟蹤、網(wǎng)絡(luò)文本的傾向性分析這三項(xiàng)主要技術(shù)的當(dāng)前發(fā)展?fàn)顩r和基本實(shí)現(xiàn)過(guò)程,重點(diǎn)對(duì)輿情熱點(diǎn)挖掘和文本傾向性分析兩個(gè)關(guān)鍵模塊進(jìn)行探討,并在此基礎(chǔ)構(gòu)建輿情分析系統(tǒng)模型.
網(wǎng)絡(luò)信息可通過(guò)網(wǎng)頁(yè)、論壇、博客等途徑進(jìn)行采集和提取.對(duì)于網(wǎng)頁(yè)信息[1],根據(jù)超文本編輯語(yǔ)言的結(jié)構(gòu)特征分析,網(wǎng)頁(yè)正文內(nèi)容通常在特定的標(biāo)簽如BODY、TABLE中,因此在信息提取時(shí)應(yīng)重點(diǎn)從這部分內(nèi)容中采集,過(guò)濾超鏈接、音頻、圖片等信息.對(duì)論壇中信息的提取可以考慮分析文檔對(duì)象模型節(jié)點(diǎn)樹(shù),過(guò)濾貼圖、動(dòng)畫(huà)、特殊字符等信息.對(duì)博客中的信息進(jìn)行采集,可充分利用簡(jiǎn)易信息聚會(huì)技術(shù)(RSS)、TRACKBACK應(yīng)用工具、友情鏈接管理系統(tǒng)(BLOGROLLING)等技術(shù)和工具,提高信息提取的質(zhì)量,過(guò)濾垃圾信息.
近年來(lái),研究者提出了很多用于網(wǎng)絡(luò)信息抽取系統(tǒng)的方法,并對(duì)主流的數(shù)據(jù)抽取工具進(jìn)行了分類.如根據(jù)信息抽取工具的自動(dòng)化程度可以分為:需要編程者的系統(tǒng)、需要標(biāo)注樣例的系統(tǒng)、不需要標(biāo)注樣例的系統(tǒng)、半監(jiān)督系統(tǒng).目前較為流行的網(wǎng)絡(luò)數(shù)據(jù)抽取工具根據(jù)生成包裝器的主要技術(shù)可分為6大類[2]:①以超文本標(biāo)記語(yǔ)言為中間件的工具(HTML-aware Tools);②用于開(kāi)發(fā)包裝器的專用語(yǔ)言(Languages for Wrapper Development);③基于自然語(yǔ)言處理(Natural language processing)的工具(NLP-based Tools);④包裝器的推導(dǎo)工具(Wrapper Induction Tools);⑤基于建模的工具(Modeling-based Tools)⑥基于本體的工具(Ontologybased Tools).
在實(shí)際工程應(yīng)用中,對(duì)于網(wǎng)絡(luò)信息采集與提取工具的定性分析必須考慮到以下指標(biāo):①自動(dòng)化程度:這是個(gè)非常重要的指標(biāo).它意味著在生成包裝器的同時(shí),需要用戶參與的工作量;②是否支持復(fù)雜結(jié)構(gòu)對(duì)象的處理;③是否支持頁(yè)面的文本分析;④是否提供圖形用戶界面;⑤是否支持非HTML文檔;⑥靈活性和適應(yīng)性.
2.1 話題發(fā)現(xiàn)與跟蹤
輿情熱點(diǎn)挖掘的第一階段工作是話題發(fā)現(xiàn)與跟蹤[3],主要以新聞報(bào)道流為處理對(duì)象,研究如何依據(jù)事件來(lái)對(duì)語(yǔ)言文本信息流進(jìn)行組織和利用,同時(shí)也應(yīng)用于應(yīng)對(duì)信息過(guò)載問(wèn)題的研究領(lǐng)域.其中話題發(fā)現(xiàn)是指自動(dòng)檢測(cè)信息片斷集合中的各個(gè)未知話題,并能發(fā)現(xiàn)新話題.話題追蹤是一種信息智能獲取技術(shù),其目的是研究自動(dòng)追蹤事件動(dòng)態(tài)發(fā)展過(guò)程中的相關(guān)信息片段.話題發(fā)現(xiàn)與跟蹤技術(shù)主要用于實(shí)現(xiàn)對(duì)新聞事件的分析,輔助進(jìn)行專題報(bào)道,快速識(shí)別新事件、追蹤熱點(diǎn)事件等.
話題發(fā)現(xiàn)與跟蹤技術(shù)研究中采用的表示模型主要包括:向量空間的模型、基于概率的模型、詞匯鏈模型和圖模型.向量空間的模型是其中的主流表示模型,其處理方法是先用向量來(lái)表示待處理的數(shù)據(jù),最終判斷是否為同一個(gè)話題的依據(jù)是計(jì)算兩個(gè)向量之間的相似度;基于概率的表示是把報(bào)道表示為詞的概率模型或N元語(yǔ)言模型,判斷話題與報(bào)道之間的關(guān)系是通過(guò)計(jì)算話題T與報(bào)道S的生成概率P (S|T)來(lái)實(shí)現(xiàn)的;詞匯鏈模型實(shí)際還屬于向量空間模型的范疇,只是劃分特征集的一種方式;圖模型最能體現(xiàn)新聞報(bào)道內(nèi)容和結(jié)構(gòu),它是用結(jié)構(gòu)圖而非集合來(lái)表示文本,含有其他模型經(jīng)常忽略的關(guān)聯(lián)特征是其精髓所在.
話題發(fā)現(xiàn)與跟蹤任務(wù)的研究框架可以用圖1進(jìn)行抽象表示.
圖1 話題發(fā)現(xiàn)與跟蹤技術(shù)研究框架
2.2 基于Hits算法的熱點(diǎn)挖掘
Hits算法是一種基于鏈接分析的網(wǎng)頁(yè)重要程度排序算法,廣泛運(yùn)用于互聯(lián)網(wǎng)搜索領(lǐng)域.算法模型中提出了權(quán)威網(wǎng)頁(yè)的概念[4],將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)分為權(quán)威性網(wǎng)頁(yè)和中心性網(wǎng)頁(yè)兩種不同類型,將網(wǎng)頁(yè)之間的超鏈接結(jié)構(gòu)描述為指向與被指向關(guān)系:一個(gè)優(yōu)質(zhì)的中心性網(wǎng)頁(yè)應(yīng)指向大量的優(yōu)質(zhì)權(quán)威性網(wǎng)頁(yè),同時(shí)一個(gè)優(yōu)質(zhì)的權(quán)威性網(wǎng)頁(yè)應(yīng)該被大量?jī)?yōu)質(zhì)的中心性網(wǎng)頁(yè)所指向.為網(wǎng)頁(yè)分設(shè)authority值和hub值,網(wǎng)頁(yè)的authority值用所有指向它的網(wǎng)頁(yè)的hub值之和來(lái)表示,網(wǎng)頁(yè)的hub值用該網(wǎng)頁(yè)指向的所有網(wǎng)頁(yè)的authority值之和來(lái)表示.
將Hits算法用于熱點(diǎn)挖掘,可以將網(wǎng)頁(yè)authority值對(duì)應(yīng)于輿情網(wǎng)絡(luò)中節(jié)點(diǎn)中心度c;網(wǎng)頁(yè)的hub值對(duì)應(yīng)于輿情網(wǎng)絡(luò)中節(jié)點(diǎn)的趨近中心度n,算法如下:
(1)用網(wǎng)頁(yè)和網(wǎng)頁(yè)間的超鏈接關(guān)系生成輿情網(wǎng)絡(luò),取輿情網(wǎng)絡(luò)中m(m=100)個(gè)節(jié)點(diǎn)p構(gòu)造算法的初始集合s.
(3)分別用公式
網(wǎng)絡(luò)文本的傾向性分析即挖掘網(wǎng)絡(luò)文本內(nèi)容蘊(yùn)含的各種觀點(diǎn)、喜好、態(tài)度、情感等非內(nèi)容或非事實(shí)信息[5].根據(jù)文本語(yǔ)義傾向性的不同,將文本分為正面褒義類、中立類、負(fù)面貶義類3種.
目前學(xué)術(shù)界討論的文本語(yǔ)義傾向性分析方法主要有以下3種[6]:
(1)基于語(yǔ)義模式的文本傾向性識(shí)別方法
這種方法中首先將自然語(yǔ)言的句法結(jié)構(gòu)進(jìn)行簡(jiǎn)化后生成一種語(yǔ)義模式,按照基本句式即主語(yǔ)+謂語(yǔ)+賓語(yǔ)結(jié)構(gòu)形成該語(yǔ)義模式的部件,并由此得到文檔的所有特征,對(duì)特征詞進(jìn)行傾向性分析后,再對(duì)分析結(jié)果的傾向量度求平均值以便得到整個(gè)文檔的語(yǔ)義傾向.以下算法描述了該方法的思路:
輸入:目標(biāo)文檔D;
指定的閾值θ.
輸出:目標(biāo)文檔D的語(yǔ)義傾向結(jié)果Re l(D).
步驟:
①對(duì)目標(biāo)文檔D進(jìn)行詞法分析,以部件集合T中元素為匹配規(guī)則提取文檔D的特征.
②尋找與集合P中元素相匹配的語(yǔ)義模式,得到所有的匹配模式集合
④將Rel(D)與指定的閾值θ進(jìn)行比較,若Rel (D)θ,則目標(biāo)文檔D是正面的或褒義的;若Rel (D)θ,則目標(biāo)文檔D是反面的或貶義的.
(2)基于傳統(tǒng)文本分類技術(shù)的分析方法
此方法中主要運(yùn)用的是文本分類技術(shù),是一種有指導(dǎo)的學(xué)習(xí)方法.常用的方法有K近鄰算法(KNN)和支持向量機(jī)算法(SNM).這種方法的實(shí)施過(guò)程是:用戶針對(duì)某一主題的文檔先行標(biāo)注出對(duì)應(yīng)的文本傾向性,將這些已標(biāo)注的文檔作為學(xué)習(xí)樣本,通過(guò)機(jī)器學(xué)習(xí)的方法構(gòu)造不同傾向性的分類器(“褒義”與“貶義”).當(dāng)需要進(jìn)行文本傾向性分析的目標(biāo)文檔屬于該主題時(shí),即可利用分類器識(shí)別其傾向性.
(3)基于語(yǔ)氣標(biāo)注的方法
這種方法是由專家標(biāo)注基準(zhǔn)詞的情感傾向權(quán)值后,通過(guò)將文檔詞匯與具有典型語(yǔ)義傾向的基準(zhǔn)詞集合進(jìn)行比較,根據(jù)其關(guān)聯(lián)程度計(jì)算出詞匯的語(yǔ)義傾向性量度,從而確定目標(biāo)文檔的語(yǔ)義傾向性.具體算法如下:
輸入:目標(biāo)文檔D;
情感特征表T;
指定的閾值θ.
輸出:目標(biāo)文檔D的語(yǔ)義傾向結(jié)果Rel(D).
步驟:
①對(duì)目標(biāo)文檔D進(jìn)行詞法分析,提取出文檔特征.
③依據(jù)特征表T,累加文檔所有特征的權(quán)值,得到目標(biāo)文檔的語(yǔ)義傾向Rel(D),計(jì)算公式為
④將Rel(D)與指定的閾值θ進(jìn)行比較,若Rel (D)θ,則目標(biāo)文檔D是正面的或褒義的;若Rel (D)θ,則目標(biāo)文檔D是反面的或貶義的.
上述3種方法各有自己的優(yōu)缺點(diǎn),適用于不同情況.第1種分析方法適合限定了主題和領(lǐng)域的情況,但該過(guò)程中有人工參與進(jìn)行抽取語(yǔ)義模式并為其賦權(quán)值,因此有較大的復(fù)雜度和工作量;第2種方法在限定主題和領(lǐng)域的情況下也有較好的分類效果,但是它需要用戶去標(biāo)注一定數(shù)量文章的傾向性,且標(biāo)注文章的數(shù)量和質(zhì)量將對(duì)分析器性能產(chǎn)生很大的影響.第3種方法可以對(duì)所有主題使用同一個(gè)分類器,降低了問(wèn)題的復(fù)雜性,但準(zhǔn)確率弱于前兩種方法.本文在系統(tǒng)構(gòu)建時(shí)將在此方法中引入分解算法機(jī)制,以提高算法的查準(zhǔn)率.
針對(duì)上述分析,本文嘗試構(gòu)建了一個(gè)針對(duì)新聞評(píng)論的輿情信息分析系統(tǒng),功能包括信息采集、熱點(diǎn)挖掘、主題聚類、傾向性分析等.該系統(tǒng)通過(guò)對(duì)關(guān)鍵站點(diǎn)的抓取,獲得最新的輿情信息;通過(guò)網(wǎng)絡(luò)間關(guān)系的方法挖掘輿情熱點(diǎn);對(duì)熱點(diǎn)話題進(jìn)行主題聚類后引入傾向性分析技術(shù),發(fā)現(xiàn)輿情傾向性并給出分析結(jié)果.系統(tǒng)整體框架組成如圖2所示.
圖2 系統(tǒng)整體框架組成圖
4.1 主要模塊
(1)熱點(diǎn)挖掘模塊
利用爬蟲(chóng)得到的網(wǎng)絡(luò)頁(yè)面網(wǎng)絡(luò)圖,使用Hits方法,獲取網(wǎng)絡(luò)輿情熱點(diǎn).
(2)熱點(diǎn)信息預(yù)處理模塊
包含分詞模塊、關(guān)鍵詞提取模塊、關(guān)聯(lián)主題檢索模塊.運(yùn)用中文分詞技術(shù)對(duì)指定的熱點(diǎn)事件對(duì)應(yīng)文檔進(jìn)行初步整理,再對(duì)結(jié)果去重處理,提取關(guān)鍵詞和特征詞,并通過(guò)關(guān)聯(lián)分析找出相關(guān)文檔.
(3)文本傾向性分析模塊
以單句中的正負(fù)面詞語(yǔ)數(shù)統(tǒng)計(jì),再統(tǒng)計(jì)全篇中正負(fù)面語(yǔ)句個(gè)數(shù),同時(shí)考慮反問(wèn)語(yǔ)氣的問(wèn)題.從正負(fù)面語(yǔ)句數(shù)統(tǒng)計(jì)結(jié)果判定整篇文檔的正負(fù)傾向.
4.2 主要模塊界面
圖3顯示了搜狐網(wǎng)2010年10月18日全天社會(huì)新聞版塊的所有新聞標(biāo)題.單擊標(biāo)題,用戶可以查看其詳細(xì)信息
圖3 信息采集模塊用戶界面
圖4 顯示了使用Hits算法得到的10個(gè)熱點(diǎn)事件,選擇某事件標(biāo)題,點(diǎn)擊“事件詳情”按鈕,彈出該熱點(diǎn)事件詳細(xì)信息如圖5所示,在此窗體中記載了熱點(diǎn)事件的標(biāo)題、內(nèi)容描述、事件關(guān)鍵詞,并包含了熱點(diǎn)事件關(guān)聯(lián)文檔的采集處理模塊.
圖4 熱點(diǎn)挖掘模塊用戶界面
圖5 熱點(diǎn)事件詳情用戶界面
圖6對(duì)熱點(diǎn)事件關(guān)聯(lián)文檔進(jìn)行了文本傾向性分析,并給出了分析結(jié)果.
圖6 文本傾向性分析模塊用戶界面
4.3 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)數(shù)據(jù)以搜狐門戶網(wǎng)站新聞版塊的社會(huì)新聞?lì)悇e1個(gè)月內(nèi)(2010年10月10日~11月10日)的新聞數(shù)據(jù)為來(lái)源,共采集了682篇基礎(chǔ)新聞文檔,產(chǎn)生10個(gè)熱點(diǎn)事件,經(jīng)過(guò)去重處理后再基于關(guān)聯(lián)規(guī)則進(jìn)行關(guān)聯(lián)主題的檢索,共提取537篇關(guān)聯(lián)文檔進(jìn)行文本傾向性分析,關(guān)聯(lián)文檔的提取不限定在上述時(shí)間范圍內(nèi).本實(shí)驗(yàn)得到的10個(gè)熱點(diǎn)事件中,“局長(zhǎng)之子在校園內(nèi)撞人致死”、“趙作海事件”兩個(gè)話題被《2010年中國(guó)互聯(lián)網(wǎng)輿情分析報(bào)告》列入2010年度網(wǎng)絡(luò)熱點(diǎn)事件,可見(jiàn)使用Hits算法可以進(jìn)行頁(yè)面重要性排序,從而能有效獲取網(wǎng)絡(luò)輿情熱點(diǎn)事件.通過(guò)對(duì)熱點(diǎn)事件關(guān)聯(lián)文檔進(jìn)行文本傾向性分析,可以發(fā)現(xiàn)參與者的情感大致分布情況,為更大范圍的文本傾向性分析奠定了基礎(chǔ).
本系統(tǒng)主要實(shí)現(xiàn)網(wǎng)絡(luò)輿情熱點(diǎn)的挖掘和文本傾向性分析.但由于熱點(diǎn)挖掘模塊只選取了一個(gè)較短時(shí)間內(nèi)新聞網(wǎng)站的數(shù)據(jù),數(shù)據(jù)量有限,并且沒(méi)有針對(duì)不同的數(shù)據(jù)源進(jìn)行比較,實(shí)驗(yàn)結(jié)果存在片面性;文本傾向性分析的對(duì)象主要來(lái)自于Web網(wǎng)頁(yè),對(duì)網(wǎng)友留言以及論壇回帖部分關(guān)注較少,因此分析結(jié)果存在一定的局限性.在可能的條件下,應(yīng)增加數(shù)據(jù)采集的來(lái)源站點(diǎn),兼顧多類型的信息來(lái)源渠道,提高實(shí)驗(yàn)結(jié)果的普遍性.
4.4 研究展望
未來(lái)網(wǎng)絡(luò)輿情分析系統(tǒng)還要在如下方面著手進(jìn)行改進(jìn):
(1)隨著越來(lái)越多的熱點(diǎn)事件初次曝光的平臺(tái)轉(zhuǎn)移至論壇、博客,尤其是微博成為輿論發(fā)酵的主要舞臺(tái),熱點(diǎn)事件的發(fā)現(xiàn)與挖掘應(yīng)建立來(lái)自不同載體的數(shù)據(jù)模型.
(2)網(wǎng)絡(luò)文本的復(fù)雜性與創(chuàng)新性,如語(yǔ)句的語(yǔ)氣、語(yǔ)句的標(biāo)點(diǎn)、具有傾向性的詞語(yǔ)所針對(duì)不同的評(píng)價(jià)對(duì)象和“全民造詞運(yùn)動(dòng)”的出現(xiàn)等情況給文本傾向性分析帶來(lái)更大挑戰(zhàn).
[1]薛鴻民.Web數(shù)據(jù)挖掘技術(shù)研究[J].現(xiàn)代電子技術(shù),2006,29 (15):99-101.
[2]Laender A,Ribeiro-Neto B,Silva A,et al.A brief survey of web data extraction tools[J].ACM SIGMOD Record,2002,31(2):84-93.
[3]張曉艷,王挺.話題發(fā)現(xiàn)與追蹤技術(shù)研究[J].計(jì)算機(jī)科學(xué)與探索,2009,3(4):347-357.
[4]李玥,劉發(fā)升.基于鏈接分析的HITS算法研究[J].軟件導(dǎo)刊, 2008(11):70-72.
[5]金曉鷗.互聯(lián)網(wǎng)輿情信息獲取與分析研究[D].上海:上海交通大學(xué),2008.
[6]馬海兵,劉永丹,王蘭成,等.三種文檔語(yǔ)義傾向性識(shí)別方法的分析與比較[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2007(4):43-47.
(編輯:郝秀清)
The study on the technology of internet public opinion analysis
HUANG Min1,HU Xue-gang2
(1.Distance Education Center,Anhui Open University,Hefei 230022,China;2.School of Computer and Information,Hefei University of Technology,Hefei 230009,China)
For the practical application of internet public opinion,this paper studied two key technologies concerning hot spot mining of public opinion and text orientation analysis based on a comprehensive consideration of the characteristics of public opinions and cognitive rules of people.The experimpent results were compared with authoritative data,which showed that the method adopted was effective.
internet public opinion;information collection;hot spot mining;text orientation analysis
1672―6197(2013)01―0025―05
TP393
A
2012- 12- 17
安徽省自然科學(xué)基金資助項(xiàng)目(KJ2013B091)
黃敏,女,huangmin@ahtvu.ah.cn