艾勇,劉賽
(中南民族大學計算機科學學院,武漢 430074)
中國少數民族地區(qū)網絡輿情監(jiān)控研究綜述
艾勇,劉賽
(中南民族大學計算機科學學院,武漢430074)
中國是統(tǒng)一的多民族國家,55個少數民族人數之和約占總人口的8.4%,居住在155個民族自治地方:包括5個自治區(qū)、30個自治州、120個自治縣(旗),民族自治地區(qū)的面積為616萬平方公里,占全國面積的64.2%[1],大多分布在中國邊疆地區(qū)。由于少數民族在風俗習慣、生活習俗上的不同,使得少數民族的事務處理存在特殊性,尤其要防止在個別人員、個別事件問題處理上產生敏感性問題,并被別有用心的人員利用,斷章取義、隱瞞關鍵信息,甚至欺騙、篡改后惡意在網絡上擴散傳播,演變成為網絡上和現(xiàn)實中事件結合的群體性事件。
如今,受到政治、經濟、民族文化、社會變革等新形勢的影響,再加上國外政治和宗教勢力的滲入,中國民族問題輿情呈現(xiàn)出了活躍、參與廣泛、影響面大等特點[2],尤其隨著移動互聯(lián)網快速發(fā)展,微博、微信等手機網絡社交媒體普及率非常高,別有用心的人通過醒目標題標示含有民族、特殊地域等信息時,更容易使得不明真相的網民產生情緒,使得少數民族的輿情活躍度、參與度、影響面進一步擴大。少數民族網絡輿情的監(jiān)控也成為了新的關注點,處理好少數民族輿情監(jiān)控與引導對國家穩(wěn)定和團結起著重要作用。
隨著互聯(lián)網和移動互聯(lián)網的快速發(fā)展,中國少數民族地區(qū)的網民規(guī)模和互聯(lián)網普及率都得到顯著上升,根據中國互聯(lián)網絡信息中心(CNNIC)2016年1月發(fā)布的《第37次中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》顯示,截止至2015年12月,中國互聯(lián)網普及率達到50.3%,網民規(guī)模為6.88億,增速達到6.09%,多個少數民族地區(qū)的統(tǒng)計值超過了全國平均水平[3](見表1)。
表1 2015年主要少數民族地區(qū)網民規(guī)模及互聯(lián)網普及率統(tǒng)計
數據來源:中國互聯(lián)網絡信息中心,《中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》(2016年1月)
如表1所示,在中國少數民族人口集中的省份和自治區(qū)中,網民規(guī)模增速全部超過全國平均水平,近一半的互聯(lián)網普及率也超過了全國平均水平,說明中國少數民族地區(qū)的網絡普及率高的同時,也進一步說明了少數民族網絡輿情監(jiān)控的重要性。
1.1以突發(fā)事件為中心,具有極強地域性
輿情的本質就具有地域特性,雖然隨著互聯(lián)網的發(fā)展,輿情逐步脫離了現(xiàn)實地域,然而少數民族的網絡輿情仍然具有較強的地域性,一般多于當地的突發(fā)群體性事件有關,例如新疆省近年來發(fā)生了多起群體性事件:2014年5月22日烏魯木齊沙依巴克區(qū)公園北街早市爆炸案;2013年6月26日鄯善暴力恐怖襲擊案件、6月28日和田縣群體聚集鬧事事件;2012年2月28日達葉城恐怖襲擊事件等;又如西藏拉薩2008年3月14日打砸搶燒嚴重暴力犯罪事件;云南省2014年3月1日昆明火車站暴力恐怖案件等。這些暴力事件的發(fā)生導致了網絡輿情的快速擴展,迅速在當地形成了極大影響,并擴散到全國。
少數民族網絡輿情的擴散一般離不開突發(fā)性事件的發(fā)生,尤其是事件發(fā)生地點處于邊疆少數民族聚集區(qū)域時尤其容易形成當地及全國各族人民的關注,從而進一步擴大其影響,從事件出發(fā),圍繞事件為中心,形成了極強的地域性。
1.2因歷史因素而導致的民族性
在少數民族網絡輿情事件中,有一些事件及輿情的產生是和其歷史的一些事件相關的技術和移動互聯(lián)網技術的推動下,形成網絡輿情,快速擴散導致輿情危機[4]。
1.3因宗教及國外勢力而導致的政治性
大多數少數民族都有自己的宗教信仰,如佛教、伊斯蘭教、天主教、基督教、道教等。宗教信仰是人類一種正常的社會意識形態(tài)和文化現(xiàn)象,但是由于部分宗教信仰存在偏激人員,對其他宗教進行抵制和攻擊,容易導致由于宗教信仰不同而導致宗教之間的沖突。此外,還有一些少數民族信教群眾違反相關規(guī)定引發(fā)的糾紛,以及跨地區(qū)非法傳教引發(fā)的糾紛,外來信教人員擅自建立宗教活動場等事件所引發(fā)的糾紛等[5]。例如2007年3月甘肅省平涼市出現(xiàn)的清真寺門口懸掛豬肉的事件[5]。此外,境外反華勢力也采用宗教滲透的方式來引發(fā)少數民族事件,引發(fā)矛盾或者突發(fā)事件后進行宣傳擴散,進而造成網絡輿情危機。
由于宗教和國外勢力的滲透的目的更多是破壞國家民族團結和穩(wěn)定,因此也導致了少數民族的輿情具有很強的政治性。
1.4因逃避網絡監(jiān)控而產生的隱蔽性
由于少數民族輿情多和政治、宗教、民族等因素有關,因此全國各地政府對少數民族的輿情監(jiān)控也非常重視,為了逃避政府的監(jiān)控,少數民族的輿情并不都是通過簡體中文在網絡上進行傳播和擴散,少數民族語言文字也從線下轉到了線上,部分網絡輿情采用了少數民族語言進行發(fā)布和傳播,給少數民族輿情的監(jiān)控和管理帶來了一定的挑戰(zhàn)。
目前網絡上已有藏文、維吾爾文、滿文、蒙古文等多種少數民族語言文字網站。然而,根據2016年1月發(fā)布的《第37次中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》顯示,截至止2015年12月,全國網頁按照編碼類型分的比例中,中文網頁比例達到98.4%,繁體中文網頁占0.7%,英文網頁占0.4%,其他占0.5%[3],即所有少數民族語言文字網頁之和還不足0.5%,因此要在海量的網頁中尋找和發(fā)現(xiàn)少數民族語言文字的網頁,進而分析網絡輿情,也是一個重要挑戰(zhàn)。
由于少數民族網絡輿情的特殊影響性和政治性,也使得網絡輿情擴散過程中更注重隱蔽和逃避監(jiān)控體系,使得輿情的發(fā)現(xiàn)和監(jiān)控也更加困難。
少數民族網絡輿情監(jiān)控不同于一般的網頁監(jiān)控,首先要能夠從海量的一般網頁中發(fā)現(xiàn)其網頁,并分析其語言文字,才能進行進一步的內容分析。蘭義湧等人在文獻[7]中總結了三類文本文字識別方法:基于規(guī)則的方法、統(tǒng)計模型、以及規(guī)則與統(tǒng)計相結合的方法。Brown R D.將相對熵[8]和支持向量機[9]等統(tǒng)計模型應用到文本文字識別中,并在這些算法的基礎上使用數據平滑等技術使得識別率達到99.998%[10]。
在國內少數民族語言文字的分析研究上,國內外對藏文[11]、蒙古文[12]和維吾爾文[13-14]等我國少數民族語言文字網頁文本的自動識別也開展了一些研究工作,主要采取了規(guī)則和統(tǒng)計相結合的方法。
在少數民族語言文字輿情監(jiān)控研究方面,江濤等人2008年在文獻[15]中提出了基于藏文網頁的輿情監(jiān)控系統(tǒng),系統(tǒng)監(jiān)控藏文網頁的“敏感點”并對“熱點”實現(xiàn)預警[15];鄧競偉等人2013年在文獻[16]中根據復雜網絡理論和Web信息挖掘的知識對藏文網絡輿情傳播規(guī)律進行實證分析,設計了一個藏文網絡輿情模型結構,對藏文網絡輿情傳播模型進行了理論分析和數值模擬,對輿情進行預警和引導[16];姜志威等人2015年在文獻[17]中提出基于觀測合理聚類的模型結構優(yōu)化方法和結構與參數相結合的字符模型優(yōu)化策略,并應用于多字體維吾爾文文本行的無切分識別[17];阿布都瓦依提·尼亞孜2010年在文獻[18]中討論了維吾爾文網站網絡輿情的引導和控制問題[18];盧修配等人2012年在文獻[19]中分析了維吾爾文網絡關于搜索系統(tǒng)設計、輿情語料庫建立、維吾爾語言自動識別算法設計、熱點話題分析方法以及網站結構分析等五個關鍵問題[19];王嘉梅等人2013年在文獻[20]中以彝文為例,構建了基于人工免疫原理的網絡敏感信息濾取系統(tǒng)[20]。
在少數民族語言文字輿情監(jiān)偵、預測和預警的應用系統(tǒng)方面,國內比較知名主要包括:方正智思輿情監(jiān)測系統(tǒng)、樂思輿情監(jiān)測系統(tǒng)、TRS網絡輿情監(jiān)控系統(tǒng)、軍犬網絡輿情監(jiān)控系統(tǒng)、鷹隼網絡輿情監(jiān)控系統(tǒng)等[21]。在這些輿情監(jiān)控系統(tǒng)中,只有部分系統(tǒng)都可以針對少數民族語言文字進行輿情監(jiān)控,如其中的北京中科點擊公司就推出了“軍犬少數民族語言輿情系統(tǒng)”版本,實現(xiàn)了53種少數民族語言的檢測及多語種的采集,能夠實時地對信息進行自動分類、消重、提取關鍵詞等處理,為用戶提供準確、無冗余、無雜質、易檢索的信息服務[22]。
此外,還有山東魯網的“政府網絡輿情監(jiān)測系統(tǒng)”可有效監(jiān)測藏文、維文、蒙文、彝文、朝鮮文等少數民族語言輿情信息[23],搜訊科技研發(fā)的御貓網絡輿情監(jiān)控系統(tǒng)可以全面監(jiān)測藏、維、彝、蒙十余種少數民族語言的軟件系統(tǒng)[24]等,總體應用不是很廣泛。
從少數民族地區(qū)的角度來研究網絡輿情對中國的穩(wěn)定和團結具有重要政治意義。本文首先論述了少數民族地區(qū)輿情監(jiān)控的重要意義,在此基礎上,總結了少數民族輿情的四大特點:突發(fā)事件為中心的地域性、歷史因素導致的民族性、宗教和國外勢力導致的政治性、以及逃避網絡監(jiān)而產生的隱蔽性;然后從學術界研究現(xiàn)狀和行業(yè)應用現(xiàn)狀對少數民族地區(qū)輿情監(jiān)測的研究進行了綜述和總結。
[1]中華人民共和國國家民族事務委員會.中國的民族區(qū)域自治白皮書中文版[EB/OL]. http://www.seac.gov.cn/art/2005/2/25/art_145_113679.html.2005-02-25
[2]寇鴻順,馬洪偉.民族問題輿情的特點及影響因素探析[J].青海社會科學,2015,1:013.
[3]中國互聯(lián)網絡信息中心.第37次中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告[R].37-41,2016.01.
[4]梁春陽.少數民族地區(qū)網絡輿情及網絡輿情危機特點分析[J].圖書館理論與實踐,2014(1):30-34.
[5]吳亮.中國少數民族群體性事件及治理機制研究[D].北京:中央民族大學,2011.
[6]云南大學課題組.邊疆多民族地區(qū)的社會利益格局變動與利益協(xié)調[J].云南行政學院學報,2008(2):49-53.
[7]蘭義湧,劉海峰,楊媛媛.少數民族語言文字網站的自動識別和采集[J].計算機科學,2015,42(z1):79-82.
[8]Sibun P,Reynar J C.Language identification:Examining the issues[J].1996.
[9]Kruengkrai C,Srichaivattana P,Sornlertlamvanich V,et al.Language Identification Based on String Kernels[C].Communications and Information Technology,2005.ISCIT 2005.IEEE International Symposium on.IEEE,2005,2:926-929.
[10]Brown R D.Finding and Identifying Text in 900+Languages[J].Digital Investigation,2012,9:S34-S43.
[11]王思麗.藏文網頁自動發(fā)現(xiàn)與采集技術研究[D].西北民族大學,2010.
[12]王睿.蒙古文網頁抓取及編碼識別轉換研究[D].內蒙古大學,2008.
[13]哈力旦.維吾爾文字識別技術中的切分算法研究[J].新疆大學學報:自然科學維文版,2013,34(2):68-73.
[14]買日旦,吾守爾,維尼拉,等.電子詞典軟件系統(tǒng)中對維,哈,柯文進行自動判別技術的研究[J].新疆大學學報:自然科學版,2011,28(1):88-92.
[15]江濤,于宏志,李剛.基于藏文網頁的網絡輿情監(jiān)控系統(tǒng)研究[J].全國計算機安全學術交流會論文集(第二十三卷),2008.
[16]鄧競偉,鄧凱英,李永生,等.基于藏文網絡的輿情傳播模型[J].計算機系統(tǒng)應用,2013(3):209-211.
[17]姜志威,丁曉青,彭良瑞.針對無切分維吾爾文文本行識別的字符模型優(yōu)化[J].清華大學學報:自然科學版,2015(8):873-877.
[18]阿布都瓦依提·尼亞孜.淺析維吾爾文網站網絡輿情的引導和控制[J].新聞世界,2010(7):204-205.
[19]盧修配,齊向偉,艾斯卡爾.雛吾爾文網絡輿情研究現(xiàn)狀及幾個關鍵問題[J].新疆師范大學學報:自然科學版,2012(2):86—88.
[20]王嘉梅,張建營,趙繼勇.云南跨境多民族語言復雜網絡輿情內容分析[J].信息與電腦:理論版,2013(6).
[21]杜智濤,謝新洲.利用灰色預測與模式識別方法構建網絡輿情預測與預警模型[J].圖書情報工作,2013,57(15):27-33.
[22]中科點擊.軍犬少數民族語言輿情系統(tǒng)[EB/OL].http://www.54yuqing.com/contents/2/12645.html.2014-06-28.
[23]魯網輿情檢測.政府網絡輿情監(jiān)測系統(tǒng)——少數民族語言網絡輿情監(jiān)測[EB/OL].http://service.sdnews.com.cn/yuqing/#3dtx.
[24]姬玉山.御貓:網絡輿情監(jiān)測的大數據平臺——訪山西搜訊傳媒科技有限公司總經理萬嘉[J].記者觀察,2013(1):125-127.
Minority;Public Opinion Monitoring;Minority Language
Survey on the Public Opinion Monitoring on Minority Area
AI Yong,LIU Sai
(College of Computer Science,South-Central University for Nationalities,Wuhan 430074)
1007-1423(2016)22-0044-04DOI:10.3969/j.issn.1007-1423.2016.22.010
艾勇(1985-),男,湖北武漢人,博士,研究方向為數據起源、輿情監(jiān)控、信息安全
2016-05-31
2016-07-29
中國少數民族地區(qū)網絡輿情的研究對國家穩(wěn)定和團結具有重要政治意義。在論述少數民族地區(qū)輿情監(jiān)控的重要性的基礎上,總結少數民族輿情的四大特點:地域性、民族性、政治性和隱蔽性。最后,對少數民族地區(qū)輿情監(jiān)測的研究發(fā)展現(xiàn)狀和技術應用現(xiàn)狀進行綜述和總結。
少數民族;輿情監(jiān)控;少數民族語言
國家民委科研項目(No.14ZNZ018)、中南民族大學中央高校專項資金項目(No.CZW15079)
The research on network public opinion of minority area has important political significance to the national stability and the reunion.Discusses the importance of the monitoring of minority language public opinion,summarizes the four major characteristics of minority public opinion:regional,national,political and concealment.Finally,concludes the related works of research and application development on public opinion monitoring of minority area.