一種基于網(wǎng)絡(luò)敏感信息挖掘的量化社會(huì)穩(wěn)定分析技術(shù)框架*
王偉1,李佳靜2,甕佳佳1
(1.武警工程大學(xué)電子技術(shù)系,陜西 西安 710086;
2.中國(guó)礦業(yè)大學(xué)(北京)機(jī)電與信息工程學(xué)院,北京 100083)
摘要:國(guó)內(nèi)針對(duì)社會(huì)穩(wěn)定形勢(shì)的分析工作主要集中在理論、體系、指標(biāo)構(gòu)建方面,定量分析研究較少。提出了基于網(wǎng)絡(luò)敏感信息挖掘、精確語(yǔ)義匹配和量化分析的社會(huì)穩(wěn)定形勢(shì)監(jiān)控技術(shù)框架。對(duì)互聯(lián)網(wǎng)新聞文本中與社會(huì)環(huán)境、民族和諧、民生幸福相關(guān)的敏感信息進(jìn)行挖掘,識(shí)別熱點(diǎn)關(guān)鍵詞以及由該詞引導(dǎo)的敏感事件的變化趨勢(shì),構(gòu)造敏感信息知識(shí)庫(kù);建立社會(huì)穩(wěn)定理論模型和計(jì)算模型,利用社會(huì)調(diào)查和迭代反饋分析法習(xí)得模型參數(shù),實(shí)現(xiàn)社會(huì)穩(wěn)定形勢(shì)的定量評(píng)估?;谠摷夹g(shù)構(gòu)造了原型系統(tǒng),對(duì)新疆、西藏等邊疆六省份社會(huì)穩(wěn)定形勢(shì)定量分析的平均準(zhǔn)確率達(dá)到73.72%,具有一定決策參考價(jià)值。
關(guān)鍵詞:敏感信息;社會(huì)穩(wěn)定指數(shù);網(wǎng)絡(luò)文本挖掘
中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)志碼:A
doi:10.3969/j.issn.1007-130X.2015.06.027
收稿日期:*2014-04-23;修回日期:2014-08-11
基金項(xiàng)目:國(guó)家自然科學(xué)青年基金資助項(xiàng)目(61309022);陜西省自然科學(xué)基金資助項(xiàng)目(2013JQ8031);武警工程大學(xué)軍事應(yīng)用研究項(xiàng)目(WJY201515)
作者簡(jiǎn)介:
通信地址:710086 陜西省西安市未央?yún)^(qū)武警路1號(hào)武警工程大學(xué)電子技術(shù)系
Address:Department of Electronic Technology,Engineering University of CAPF,1 Wujing Rd,Weiyang District,Xi’an 710086,Shaanxi,P.R.China
Aquantitativesocialstabilityanalysisframeworkbasedonwebsensitiveinformationmining
WANGWei1,LI Jia-jing2,WENG Jia-jia1
(1.DepartmentofElectronicTechnology,EngineeringUniversityofCAPF,Xi’an710086;
2.SchoolofMechanicalElectronic&InformationEngineering,
ChinaUniversityofMining&Technology,Beijing100083,China)
Abstract:Research on domestic social stability analysis mainly focuses on the construction of social stability theory, architecture and index, but little attention is paid to quantitative analysis. In this paper, we propose a social stability supervising framework based on sensitive Web information mining, semantic pattern matching and quantitative calculation. By analyzing the sensitive information about social environment, national harmony and happy index of people lives in natural language texts from Internet, and identifying hot keywords as well as the event trends led by the keywords, we construct a sensitive information knowledge base, and design a social stability index theoretic model and a quantitative calculation model to evaluate the social stability quantitatively. Parameters of the calculation model are determined by employing social investigations and an iterative feedback learning method. A prototype system is built on the proposed framework and experiments are conducted in 6 frontier provinces, such as Xinjiang and Tibet. The result of an average accuracy of 73.29% has reference value in decision-making to some extent.
Keywords:sensitiveinformation;socialstabilityindex;webtextmining
1引言
我國(guó)互聯(lián)網(wǎng)普及率不斷提高,虛擬網(wǎng)絡(luò)對(duì)現(xiàn)實(shí)社會(huì)的影響日益顯著。網(wǎng)絡(luò)上發(fā)布的信息,既有能夠反映貧富差距、社會(huì)治安、就業(yè)失業(yè)等社會(huì)環(huán)境問題的內(nèi)容,又有反映宗教信仰、生活方式、境外勢(shì)力滲透等民族和諧問題的內(nèi)容,還有與人民生活環(huán)境、社會(huì)保障、可支配收入相關(guān)的民生信息。通過網(wǎng)上社區(qū)討論,形成現(xiàn)實(shí)社會(huì)中的游行、集會(huì)、結(jié)社等社會(huì)性行為的事例屢見不鮮。因此,利用信息化手段對(duì)互聯(lián)網(wǎng)敏感信息進(jìn)行全面、準(zhǔn)確和及時(shí)的監(jiān)測(cè),做出有效的預(yù)警和應(yīng)對(duì),是維護(hù)社會(huì)安定團(tuán)結(jié)、大力發(fā)展經(jīng)濟(jì)的有效保障。
目前網(wǎng)絡(luò)信息監(jiān)測(cè)任務(wù)主要由輿情監(jiān)測(cè)系統(tǒng)完成。輿情系統(tǒng)可實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)信息的監(jiān)管、對(duì)熱點(diǎn)事件的追蹤[1,2],進(jìn)行關(guān)聯(lián)分析和趨勢(shì)分析,但一般并不對(duì)社會(huì)穩(wěn)定局勢(shì)進(jìn)行分析。國(guó)內(nèi)現(xiàn)有的針對(duì)社會(huì)穩(wěn)定形勢(shì)的分析工作[3~11]主要集中在理論、體系、指標(biāo)構(gòu)建方面,利用互聯(lián)網(wǎng)信息實(shí)現(xiàn)實(shí)時(shí)社會(huì)穩(wěn)定形勢(shì)評(píng)估的研究較少。一方面,大量研究只進(jìn)行定性分析而未得出更有意義的量化結(jié)果;另一方面,一些工作局限于某個(gè)單一因素,如僅針對(duì)幸福指數(shù)進(jìn)行研究,未考慮到多種因素的綜合影響。
本文面向互聯(lián)網(wǎng)海量自然語(yǔ)言文本,建立由社會(huì)環(huán)境因素、民族和諧因素和幸福指數(shù)三類因素構(gòu)成的社會(huì)穩(wěn)定理論模型與計(jì)算模型,利用社會(huì)調(diào)查及迭代反饋學(xué)習(xí)方法習(xí)得模型參數(shù),通過抓取、識(shí)別、抽取網(wǎng)絡(luò)新聞報(bào)道及評(píng)論中的敏感信息構(gòu)造敏感知識(shí)庫(kù),經(jīng)過精確的語(yǔ)義規(guī)則匹配與量化計(jì)算,實(shí)現(xiàn)對(duì)社會(huì)穩(wěn)定形勢(shì)的實(shí)時(shí)監(jiān)控。對(duì)新疆、西藏等邊疆六省份典型網(wǎng)站的實(shí)驗(yàn)分析結(jié)果顯示,平均準(zhǔn)確率達(dá)到73.72%,能較好地反映社會(huì)穩(wěn)定趨勢(shì)。
2相關(guān)研究工作
國(guó)內(nèi)一些社會(huì)科學(xué)工作者在社會(huì)穩(wěn)定形勢(shì)分析、指標(biāo)體系建構(gòu)和管理系統(tǒng)的研發(fā)等多個(gè)方面進(jìn)行了相關(guān)研究。如李育全[3]在結(jié)構(gòu)性調(diào)查統(tǒng)計(jì)的基礎(chǔ)上,從事實(shí)評(píng)定指數(shù)和穩(wěn)定信心指數(shù)兩個(gè)方面對(duì)邊疆民族地區(qū)社會(huì)穩(wěn)定的影響因素進(jìn)行了實(shí)證分析。文獻(xiàn)[4~6]針對(duì)幸福指標(biāo)的經(jīng)濟(jì)學(xué)意義、幸福指數(shù)指標(biāo)體系的構(gòu)建、幸福指數(shù)的采集與實(shí)證分析進(jìn)行了研究。文獻(xiàn)[7,8]對(duì)社會(huì)群體性事件背后的心理學(xué)因素進(jìn)行了探討。朱慶芳等[9]構(gòu)建了由38項(xiàng)重要指標(biāo)組成的經(jīng)濟(jì)社會(huì)和諧發(fā)展指標(biāo)體系。文獻(xiàn)[10,11]從經(jīng)濟(jì)學(xué)角度對(duì)我國(guó)城市社會(huì)政治穩(wěn)定性進(jìn)行了嘗試性的實(shí)證分析。文獻(xiàn)[12]對(duì)利用人為輸入信息構(gòu)建社會(huì)穩(wěn)定預(yù)警預(yù)控管理系統(tǒng)的方法進(jìn)行了描述??梢娔壳暗难芯恐饕性诶碚?、體系、指標(biāo)方面,還未見利用網(wǎng)絡(luò)信息挖掘技術(shù)自動(dòng)進(jìn)行社會(huì)穩(wěn)定形勢(shì)分析的工作。本文在理論建?;A(chǔ)上,利用文本挖掘技術(shù)實(shí)現(xiàn)對(duì)社會(huì)穩(wěn)定形勢(shì)的監(jiān)控。
與本文直接相關(guān)的應(yīng)用是輿情監(jiān)測(cè)。輿情監(jiān)測(cè)系統(tǒng)從Web網(wǎng)頁(yè)內(nèi)容中的半結(jié)構(gòu)或無結(jié)構(gòu)的數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)、提取有用信息,發(fā)現(xiàn)海量信息中民眾關(guān)注的熱點(diǎn)、焦點(diǎn)事件,實(shí)現(xiàn)對(duì)熱點(diǎn)事件的追蹤,并能形成一定的關(guān)聯(lián)分析和趨勢(shì)分析。國(guó)內(nèi)較為出色的輿情監(jiān)測(cè)系統(tǒng)有北大方正的智思輿情預(yù)警輔助決策支持系統(tǒng),北京拓爾思TRS互聯(lián)網(wǎng)輿情信息監(jiān)控系統(tǒng),以及美亞輿情、人民輿情、天璣輿情、谷尼網(wǎng)絡(luò)輿情、鷹擊微博與情等等。它們都以信息采集技術(shù)為核心,應(yīng)用信息處理技術(shù)、內(nèi)容管理技術(shù)、知識(shí)管理技術(shù)、信息分類技術(shù),實(shí)現(xiàn)網(wǎng)絡(luò)輿情監(jiān)測(cè)和新聞熱點(diǎn)追蹤、新聞監(jiān)管等功能。本文的工作專注于社會(huì)穩(wěn)定形勢(shì)的量化分析,即在采集、分析和處理網(wǎng)絡(luò)信息的基礎(chǔ)上,需要根據(jù)所提出的社會(huì)穩(wěn)定指數(shù)模型進(jìn)行量化計(jì)算,才能得到社會(huì)穩(wěn)定形勢(shì)。
3社會(huì)穩(wěn)定形勢(shì)分析技術(shù)框架
本文基于網(wǎng)絡(luò)敏感信息挖掘技術(shù),提出了社會(huì)穩(wěn)定形勢(shì)分析技術(shù)框架,構(gòu)造了社會(huì)穩(wěn)定指數(shù)模型,實(shí)現(xiàn)了對(duì)社會(huì)穩(wěn)定形勢(shì)的自動(dòng)量化分析。整體技術(shù)框架如圖1所示。
Figure 1 A quantitative social stability analysis framework based on web sensitive information mining 圖1 基于Web敏感信息挖掘的社會(huì)穩(wěn)定量化分析框架
該技術(shù)框架由三層構(gòu)成:
(1)文本挖掘?qū)樱禾峁┖A縒eb文本挖掘服務(wù)。針對(duì)社會(huì)穩(wěn)定模型中所涉及的要素抓取相關(guān)網(wǎng)頁(yè),利用TML(TextMiningLanguage)[13]提取關(guān)鍵詞、進(jìn)行語(yǔ)義分析、挖掘關(guān)聯(lián)關(guān)系、捕獲敏感信息。TML封裝了復(fù)雜的網(wǎng)頁(yè)抓取和自然語(yǔ)言處理技術(shù),并將理論模型、提取規(guī)則映射為具體的文本挖掘過程。
(2)知識(shí)發(fā)現(xiàn)層:實(shí)現(xiàn)理論建模、規(guī)則提取與知識(shí)發(fā)現(xiàn)。根據(jù)社會(huì)穩(wěn)定指數(shù)理論模型,分析代表各類要素的關(guān)鍵詞集和關(guān)聯(lián)關(guān)系,構(gòu)造敏感信息匹配規(guī)則庫(kù)。并利用迭代反饋機(jī)制確定社會(huì)穩(wěn)定指數(shù)模型中各要素的權(quán)重,實(shí)現(xiàn)社會(huì)穩(wěn)定形勢(shì)的定量計(jì)算。
(3)數(shù)據(jù)表現(xiàn)層:提供數(shù)據(jù)的可視化與可操作性。利用社會(huì)穩(wěn)定指數(shù)計(jì)算模型量化分析提取的敏感信息,以圖表等可視化形式展示社會(huì)穩(wěn)定變化趨勢(shì),為進(jìn)一步的智能情報(bào)分析與決策操作提供人機(jī)接口。
3.1文本挖掘?qū)?/p>
文本挖掘?qū)釉谥R(shí)發(fā)現(xiàn)層指導(dǎo)下,從海量網(wǎng)絡(luò)文本中挖掘影響社會(huì)穩(wěn)定的社會(huì)環(huán)境、民族和諧和幸福指數(shù)三種類別因素的敏感詞和匹配規(guī)則。
新聞是報(bào)紙、電臺(tái)等媒體記錄社會(huì)、傳播信息、反映時(shí)代的一種文體?;ヂ?lián)網(wǎng)的開放性使網(wǎng)絡(luò)新聞能夠更直接、更迅速地記述現(xiàn)實(shí)社會(huì),因此影響社會(huì)穩(wěn)定形勢(shì)的諸多因素均可在網(wǎng)絡(luò)新聞中找到。本文采用了兩種方式獲取網(wǎng)頁(yè)上的敏感信息:
(1)人工閱讀新聞網(wǎng)頁(yè),根據(jù)公眾對(duì)當(dāng)前的時(shí)局、政策的一些觀點(diǎn)選擇敏感信息作為“種子”。在初始狀態(tài)下,使用這種方式效果較好,但效率較低。
(2)利用TML文本挖掘語(yǔ)言,通過自動(dòng)挖掘獲得網(wǎng)上信息。將手工獲取的初始敏感詞作為關(guān)鍵字提供給網(wǎng)絡(luò)爬蟲,用來實(shí)現(xiàn)定向抓取,再?gòu)姆祷氐木W(wǎng)頁(yè)中通過文本分析與挖掘獲得新的敏感詞,構(gòu)造敏感詞集。
TML是一個(gè)自然語(yǔ)言處理平臺(tái),它包含編譯器、虛擬機(jī)和集成開發(fā)環(huán)境。用戶使用TML語(yǔ)言編寫文本挖掘規(guī)則代碼,這些代碼被編譯成字節(jié)碼后在虛擬機(jī)上運(yùn)行。TML實(shí)現(xiàn)并封裝了大部分常用的文本挖掘技術(shù),為復(fù)雜的文本挖掘過程提供了一條簡(jiǎn)單的途徑。
在文本挖掘?qū)樱覀兓赥ML實(shí)現(xiàn)了敏感信息挖掘,將所識(shí)別的信息作為構(gòu)造知識(shí)庫(kù)的基礎(chǔ)。該層利用了TML提供的網(wǎng)絡(luò)爬蟲、文本抽取、中文分詞、詞性標(biāo)注與命名實(shí)體識(shí)別、關(guān)鍵詞抽取、概念與關(guān)系抽取等功能。根據(jù)社會(huì)穩(wěn)定理論模型,使用CONCEPT和PREDICATE指令定義敏感詞集與規(guī)則,利用PAGES確定信息采集的范圍,并用SELECT提取匹配的概念與關(guān)系。TML代碼框架如下:
CONCEPTx;/*定義敏感詞集x*/
CONCEPTy;/*定義敏感詞集y*/
PREDICATEx-y;/*定義敏感詞集間的關(guān)系*/
PAGESSample {Definewebsite}/*定義抓取網(wǎng)頁(yè)的范圍*/
SELECTx-yfromSample;/*定義輸出*/
OUTPUT;/*以XML輸出結(jié)果*/
例如,在分析“社會(huì)環(huán)境”中“經(jīng)濟(jì)收入”影響因素時(shí),人工識(shí)別的敏感詞集CONCEPT (income) ={“收入”,“工資”,“薪水”,“生活費(fèi)”},以此為種子進(jìn)行定向抓取和同義詞擴(kuò)展后,得到CONCEPT (income)={“收入”,“工資”,“薪水”,“生活費(fèi)”,“平均收入”,“平均生活費(fèi)”,“經(jīng)濟(jì)”,“物質(zhì)”,“生活必需品”,“飲食質(zhì)量”,“伙食費(fèi)”,“平均工資”,“平均薪水”,“可支配收入”,“可支配工資”,“可支配薪水”,“生活用品”}。
上述半自動(dòng)學(xué)習(xí)過程只完成了敏感詞的識(shí)別,而在社會(huì)穩(wěn)定信息挖掘時(shí),需要描述敏感詞的變化趨勢(shì)。例如,在“社會(huì)環(huán)境”方面需要分析“經(jīng)濟(jì)收入”相關(guān)敏感信息的變化。這里同樣利用半自動(dòng)學(xué)習(xí)方式構(gòu)造表示狀態(tài)變化的動(dòng)詞集,即CONCEPT (income-v)={“低”,“下降”,“減少”,“下滑”,“降”,“回落”,“低落”,“低下”,“沒有”,“不夠”,“拮據(jù)”}。
為了實(shí)現(xiàn)精確的語(yǔ)義匹配,同時(shí)避免復(fù)雜的漢語(yǔ)語(yǔ)法分析,本文利用“詞同現(xiàn)”定義敏感詞與變化趨勢(shì)詞之間的謂詞修飾關(guān)系。函數(shù)PREDICATESE1(income n1, income-v v1){ dist_15(n1,v1);}表示在相距15個(gè)詞(一句話的平均長(zhǎng)度)之內(nèi),來自集合income的詞與來自income-v詞之間構(gòu)成了主謂關(guān)系,描述了一種影響社會(huì)穩(wěn)定的因素。這種基于距離定義的匹配方法在兩個(gè)集合之間形成了|income|×|income-v|映射,提高了規(guī)則的覆蓋范圍,客觀上能夠達(dá)到利用同義詞擴(kuò)展提高召回率的效果。
3.2知識(shí)發(fā)現(xiàn)層
知識(shí)發(fā)現(xiàn)層實(shí)現(xiàn)社會(huì)穩(wěn)定形勢(shì)的理論與量化建模,并根據(jù)模型指導(dǎo)文本挖掘?qū)訉?shí)現(xiàn)規(guī)則提取與知識(shí)發(fā)現(xiàn)。
3.2.1社會(huì)穩(wěn)定指數(shù)理論模型
李育全[3]認(rèn)為影響邊疆民族地區(qū)社會(huì)穩(wěn)定的主要因素是“新型社會(huì)利益群體形成過程中的利益摩擦,社會(huì)資源再分配導(dǎo)致的利益懸殊感的緩慢累積,以及利益訴求和利益表達(dá)的非理性行為”。通過實(shí)證分析,發(fā)現(xiàn)影響社會(huì)不穩(wěn)定的因素具有多元化特征,包括了經(jīng)濟(jì)、就業(yè)、社會(huì)保障、物價(jià)、利益、政治、民族、文化、宗教、敵對(duì)勢(shì)力的滲透、突發(fā)事件、征地拆遷等多方面問題。本文通過進(jìn)一步分析、研討與社情考察,認(rèn)為社會(huì)穩(wěn)定指數(shù)(SI)是社會(huì)穩(wěn)定因素(SE)、民族和諧因素(NH)和幸福指數(shù)(HI)的線性組合,如公式(1)所示:
SI=αSE+βNH+γHI
(1)
其中,社會(huì)環(huán)境SE=α1RP+β1SP+γ1EQ+…,定義為多種與社會(huì)環(huán)境相關(guān)的要素的組合。RP、SP、EQ、…分別表示貧富分化、社會(huì)治安、就業(yè)問題等要素。
民族和諧NH=α2R+β2HP+γ2LS+…,定義為多種與民族團(tuán)結(jié)相關(guān)的要素的組合。R、HP、LS、 …分別表示宗教、境外勢(shì)力滲透、生活方式等要素。
幸福指數(shù)HI=α3IC+β3SG+γ3EnQ+…,定義為多種與幸福生活相關(guān)的要素的組合。IC、SG、EnQ、…分別表示可支配收入、社會(huì)保障、環(huán)境質(zhì)量等要素。
3.2.2影響社會(huì)穩(wěn)定的因素分析
社會(huì)穩(wěn)定指數(shù)受許多因素影響,為確定哪些因素比較重要,本文設(shè)計(jì)了“社會(huì)穩(wěn)定影響因素”調(diào)查問卷,并于2013年3月~4月,分別在高校、企業(yè)、街頭展開隨機(jī)抽樣調(diào)查,共發(fā)出問卷500份,收回500份,被調(diào)查對(duì)象涉及少數(shù)民族187人、漢族313人,其年齡分布、職業(yè)分布和學(xué)歷分布見表1~表3。
Table 1 Age distribution of survey participants
Table 2 Career distribution of survey participants
Table 3 Education background distribution
對(duì)收回的問卷進(jìn)行統(tǒng)計(jì),列出影響社會(huì)穩(wěn)定的社會(huì)環(huán)境、民族和諧和幸福指數(shù)相關(guān)因素如表4~表6所示。
Table 4 Social environmental factors that affect social stability
Table 5 National harmony factors that affect social stability
Table 6 Happiness factors that affect social stability
3.2.3社會(huì)穩(wěn)定指數(shù)的量化計(jì)算
在進(jìn)行“社會(huì)穩(wěn)定影響因素”問卷調(diào)查時(shí),我們要求被調(diào)查對(duì)象根據(jù)個(gè)人體驗(yàn)將各類別中的因素按照對(duì)社會(huì)穩(wěn)定形勢(shì)的影響程度由大至小排序,對(duì)于每類因素中的項(xiàng)目,同樣按照影響程度由大至小進(jìn)行排序。然后根據(jù)統(tǒng)計(jì)結(jié)果計(jì)算各因素對(duì)社會(huì)穩(wěn)定的影響系數(shù)ai。對(duì)于某一類因素,假設(shè)其排在第一位的數(shù)量為x1,排在第二位的數(shù)量為x2,…,排在第m位的數(shù)量為xm,則:
(2)
根據(jù)公式(2),可得到對(duì)模型參數(shù)的粗略估計(jì),更準(zhǔn)確的模型參數(shù)需要利用實(shí)際實(shí)驗(yàn)數(shù)據(jù)來確定。我們從邊疆省份選定了一批網(wǎng)站進(jìn)行抓取和分析,經(jīng)過篩選和比較,從中選擇出新聞內(nèi)容量大、更新頻繁、具有代表性的網(wǎng)站作為抓取數(shù)據(jù)源,具體網(wǎng)站信息如表7所示。
Table 7 Website list for data sampling
通過對(duì)上述網(wǎng)站采樣數(shù)據(jù)的分析,對(duì)模型參數(shù)進(jìn)行驗(yàn)證和調(diào)整,得到穩(wěn)定指數(shù)最終的計(jì)算公式如下:
社會(huì)穩(wěn)定指數(shù):
SI=0.45SE+0.35NH+0.2HI
(3)
其中,社會(huì)環(huán)境SE=0.25*income+ 0.09*employment+0.05*promotion+0.12*position+0.13*welfare+0.15*family+0.08*quality+0.13*disturbance
民族和諧因素NH=0.5*economy + 0.2*religion + 0.3*government
幸福指數(shù)HI=0.4*quality + 0.4*sequence+ 0.2*stable
3.3數(shù)據(jù)表現(xiàn)層
在數(shù)據(jù)表現(xiàn)層,以圖表等可視化形式動(dòng)態(tài)、直觀地展示社會(huì)穩(wěn)定變化趨勢(shì),并提供決策參考??蛇x的數(shù)據(jù)展示方式包括:
(1)折線圖:根據(jù)量化分析中得到的穩(wěn)定指數(shù)繪制社會(huì)穩(wěn)定指數(shù)線性圖,該折線圖能夠直觀地顯示一段時(shí)間內(nèi)多個(gè)省份穩(wěn)定形勢(shì)的變化趨勢(shì)。社會(huì)穩(wěn)定指數(shù)變化曲線如圖2所示。
(2)形勢(shì)圖:繪制動(dòng)態(tài)地圖,按日期顯示不同省份的穩(wěn)定指數(shù)監(jiān)控情況,根據(jù)國(guó)際通用的安全級(jí)別與顏色,將穩(wěn)定指數(shù)對(duì)應(yīng)為不同的安全級(jí)別,在地圖上為各省染色,增強(qiáng)視覺效果。社會(huì)穩(wěn)定形勢(shì)如圖3所示。
Figure 2 A line chart of social stability 圖2 社會(huì)穩(wěn)定指數(shù)線性圖
Figure 3 A situation chart of social stability 圖3 社會(huì)穩(wěn)定形勢(shì)圖
4實(shí)驗(yàn)結(jié)果與分析
根據(jù)論文提出的技術(shù)框架,本文實(shí)現(xiàn)了一個(gè)社會(huì)穩(wěn)定指數(shù)分析系統(tǒng)原型。利用該原型系統(tǒng)對(duì)西藏等邊疆六省進(jìn)行分析,得到2013/6/5/~2013/6/9各省穩(wěn)定指數(shù)變化趨勢(shì),如圖4所示。
Figure 4 A social stability line chart of 6 frontier provinces 圖4 2013/6/5~2013/6/9邊疆六省社會(huì)穩(wěn)定指數(shù)線性圖
其中,吉林省穩(wěn)定指數(shù)較高且變化明顯,分析所抓取網(wǎng)頁(yè)內(nèi)容,發(fā)現(xiàn)吉林省6月3日發(fā)生了火災(zāi)爆炸事件,因此連續(xù)幾天圍繞該事件出現(xiàn)了較多報(bào)導(dǎo),以下是提取的相關(guān)敏感信息:
(1)6月3日~6月5日:發(fā)生6.3特大火災(zāi)爆炸事件。
(2)6月6日~6月7日:陸續(xù)公布死亡人數(shù)。
(3)6月7日~6月8日:爆炸事件后追究責(zé)任、控制影響等新聞眾多,如:“當(dāng)?shù)卦鵀槌鍪鹿S違規(guī)開路” 、“政府道歉后還需追責(zé)” 、“液氨高溫后易造成流行病與疫病流行”。
(4)6月8~6月9日:火災(zāi)爆炸相關(guān)報(bào)道減少,高考新聞增多,穩(wěn)定指數(shù)走勢(shì)下降。
除火災(zāi)爆炸事件外,在此期間還統(tǒng)計(jì)到吉林省同時(shí)有大量影響社會(huì)穩(wěn)定的新聞報(bào)道,如:“吉林長(zhǎng)春市一地鐵施工處發(fā)生施工事故”、“吉林一法院‘溫馨提示’引發(fā)公眾批評(píng)”、“吉林石化乙二醇出廠報(bào)價(jià)小幅上漲”、“吉林榆樹高考亂象娛樂了誰(shuí)”、“吉林男子行兇 見義勇為者身中多刀”、“韓企白菜價(jià)進(jìn)口中國(guó)人參暴利 吉林千億計(jì)劃阻擊”等。
為驗(yàn)證社會(huì)穩(wěn)定指數(shù)計(jì)算模型的準(zhǔn)確性,我們將6月5日~9日的評(píng)測(cè)結(jié)果與事實(shí)相比較,并對(duì)準(zhǔn)確率進(jìn)行統(tǒng)計(jì),結(jié)果如圖5所示。這里準(zhǔn)確率定義為:
Figure 5 Manual evaluation accuracy of social stability of 6 frontier provinces from 2013/6/5 to 2013/6/9 圖5 2013/6/5~2013/6/9邊疆六省 社會(huì)穩(wěn)定指數(shù)人工評(píng)測(cè)準(zhǔn)確率
我們針對(duì)圖中“云南6月7日”和“6月9日”準(zhǔn)確率偏低進(jìn)行了分析,發(fā)現(xiàn)是由于敏感詞集增大、結(jié)構(gòu)設(shè)計(jì)不合理造成的。我們對(duì)敏感詞集根據(jù)語(yǔ)義進(jìn)行了分類,優(yōu)化了詞集間的交叉關(guān)聯(lián),經(jīng)調(diào)整優(yōu)化后系統(tǒng)平均準(zhǔn)確率達(dá)到73.72%。
上述實(shí)驗(yàn)結(jié)果說明提出的模型和技術(shù)框架能夠較好地監(jiān)測(cè)社會(huì)穩(wěn)定形勢(shì),及時(shí)反映社會(huì)穩(wěn)定狀態(tài)的變化趨勢(shì)。為進(jìn)一步提高實(shí)用性,可在以下兩方面加以改進(jìn):(1)篩選敏感信息時(shí)參考百度熱詞榜等資源,以提高構(gòu)造敏感信息知識(shí)庫(kù)的權(quán)威性;(2)加入文本的極性分析技術(shù),以便在更細(xì)的粒度上把握公眾的輿論走向。
5結(jié)束語(yǔ)
本文以網(wǎng)絡(luò)新聞文本為例研究了與社會(huì)環(huán)境、民族和諧、民生幸福等主題相關(guān)的敏感信息的抓取與量化分析技術(shù)。構(gòu)造了社會(huì)穩(wěn)定指數(shù)量化分析模型,基于文本挖掘與精確語(yǔ)義匹配,實(shí)現(xiàn)了社會(huì)穩(wěn)定指數(shù)的定量分析。針對(duì)新疆、西藏等邊疆六省份指定網(wǎng)站的實(shí)測(cè)結(jié)果顯示,本文構(gòu)造的模型和系統(tǒng)能夠較好地反映社會(huì)穩(wěn)定形勢(shì),相關(guān)結(jié)果可提供給政府、公安情報(bào)部門作為參考決策依據(jù),有效維護(hù)國(guó)家的安定團(tuán)結(jié)。
參考文獻(xiàn):
[1]Shou Li-dan, Chen Gang, Hu Tian-lei, et al. A relevance mining method of Internet hot spot topic:China, Invention patent CN101158957[P]. 2008-04-09.(in Chinese)
[2]Li Yu-qin, Sun Li-hua. Hot-word detection for Internet public sentiment[J]. Journal of Chinese Information Processing, 2011, 25(1):48-59.(in Chinese)
[3]Li Yu-quan.Analysis of social stability influence factors in frontier ethnic areas[J]. Heilongjiang National Periodicals, 2010(1):36-43.(in Chinese)
[4]Tang Xiao-jing, Yang Peng-fei. On evaluation model for Chinese citizens happiness index[J]. Journal of Anhui Science and Technology University, 2012, 26(2):61-65.(in Chinese)
[5]Gong Chun-zi.How to build the index system of GNH [J]. Journal of Eastern Liaoning University (Social Sciences), 2006, 8(6):84-87.(in Chinese)
[6]Kang Jun. The meaning and measurement of happiness [J]. China Statistics, 2006, 2006(9):18-19.(in Chinese)
[7]Liao He-ping, Cao Han-lin. Social psychological mechanism produced by group events and its countermeasures[J]. Innovation, 2009(1):83-87.(in Chinese)
[8]Qiu Zhong-hui. A social psychological foundation analysis on network public opinion in massive incidents [J]. Journal of Guizhou Province Committee Party’s School of C. P. C. 2011(3):82-85.(in Chinese)
[9]Zhu Qing-fang. A comprehensive evaluation on index system of the harmonious development in economic society[R]. Society of China Analysis and Forecast, 2007.(in Chinese)
[10]Song Li-na, Appleton S. An empirical investigation into social discontent in urban China[J]. China Economic Quarterly, 2007, 6(4):1339-1358.(in Chinese)
[11]Hu Lian-he, Hu An-gang, Wang Lei. An empirical analysis on the changing situation in social unstable factors [J]. Discovery, 2007(6):105-114.(in Chinese)
[12]Yan Yao-jun. The measurement of the social stability and the construction of presentiment management system[J]. Sociological Studies, 2004(3):1-10.(in Chinese)
[13]Li Jia-jing, Li Xiao-ming, Meng Tao. TML:A universal and efficient language text mining[J].Journal of Computer Research and Development, 2015,52(3):553-560.(in Chinese)
參考文獻(xiàn):附中文
[1]壽黎但, 陳剛, 胡天磊, 等. 互聯(lián)網(wǎng)熱點(diǎn)主題相關(guān)性挖掘方法:中國(guó),發(fā)明專利CN101158957[P].2008-04-09.
[2]李渝勤, 孫麗華. 面向互聯(lián)網(wǎng)輿情的熱詞分析技術(shù)[J]. 中文信息學(xué)報(bào), 2011, 25(1):48-59.
[3]李育全. 邊疆民族地區(qū)社會(huì)穩(wěn)定的影響因素分析[J]. 黑龍江民族叢刊, 2010(1):36-43.
[4]唐曉靜, 楊鵬飛. 我國(guó)居民幸福指數(shù)評(píng)價(jià)模型[J]. 安徽科技學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版), 2012, 26(2):61-65.
[5]宮春子. 幸福指數(shù)指標(biāo)體系的構(gòu)建[J]. 遼東學(xué)院學(xué)報(bào), 2006, 8(6):84-87.
[6]康君. 幸福涵義及度量要素[J]. 中國(guó)統(tǒng)計(jì), 2006, 2006(9):18-19.
[7]廖和平, 曹漢林. 群體性事件產(chǎn)生的社會(huì)心理機(jī)制及對(duì)策探究[J]. 創(chuàng)新, 2009(1):83-87.
[8]邱中慧. 群體性事件中網(wǎng)絡(luò)輿情的社會(huì)心理基礎(chǔ)分析[J]. 中共貴州省委黨校學(xué)報(bào), 2011(3):82-85.
[9]朱慶芳. 經(jīng)濟(jì)社會(huì)和諧發(fā)展指標(biāo)體系綜合評(píng)價(jià)[R].中國(guó)社會(huì)形勢(shì)分析與預(yù)測(cè), 2007.
[10]宋麗娜, Appleton S. 對(duì)中國(guó)當(dāng)前城市社會(huì)穩(wěn)定性的實(shí)證研究[J]. 經(jīng)濟(jì)學(xué), 2007, 6(4):1339-1358.
[11]胡聯(lián)合, 胡鞍鋼, 王磊. 關(guān)于我國(guó)社會(huì)不穩(wěn)定因素變化態(tài)勢(shì)的實(shí)證分析[J]. 探索, 2007(6):105-114.
[12]閻耀軍. 社會(huì)穩(wěn)定的計(jì)量及預(yù)警預(yù)控管理系統(tǒng)的構(gòu)建[J]. 社會(huì)學(xué)研究, 2004(3):1-10.
[13]李佳靜, 李曉明, 孟濤. TML:一種通用高效的文本挖掘語(yǔ)言[J].計(jì)算機(jī)研究與發(fā)展,2015,52(3):553-560.
王偉(1972-),男,河北唐山人,博士,副教授,CCF會(huì)員(E200018182M),研究方向?yàn)榫W(wǎng)絡(luò)信息處理和信息安全。E-mail:wjwangwei@pku.edu.cn
WANG Wei,born in 1972,PhD,associate professor,CCF member(E200018182M),his research interests include Web information processing, and information security.
李佳靜(1979-),女,黑龍江大慶人,博士,講師,研究方向?yàn)槲谋就诰蚝托畔踩?。E-mail:lijj@cumtb.edu.cn
LI Jia-jing,born in 1979,PhD,lecturer,her research interests include text mining, and information security.
甕佳佳(1987-),女,河南息縣人,碩士,助教,研究方向?yàn)樾畔踩-mail:wj-wengjiajia@163.com
WENG Jia-jia,born in 1987,MS,assistant,her research interest includes information security.