于茜 大連科技學(xué)院 數(shù)字技術(shù)學(xué)院
國(guó)務(wù)院《國(guó)家突發(fā)公共事件總體應(yīng)急預(yù)案》和國(guó)家科技部《國(guó)家“十二五”科學(xué)和技術(shù)發(fā)展規(guī)劃》中指出當(dāng)前我國(guó)社會(huì)公共安全體系建設(shè)過程中迫切需要發(fā)展社會(huì)公共安全應(yīng)急管控與指揮技術(shù),重點(diǎn)突破應(yīng)急指揮與處置、輿情監(jiān)控和預(yù)測(cè)、圖像處理等關(guān)鍵技術(shù),提升社會(huì)公共安全的信息預(yù)警、應(yīng)急處置、社會(huì)管控能力和水平。
當(dāng)前大數(shù)據(jù)環(huán)境下突發(fā)公共安全事件網(wǎng)絡(luò)輿情研究中亟待解決的問題有:(1)缺少針對(duì)突發(fā)公共安全事件網(wǎng)絡(luò)輿情的有效分析方法;(2)缺少大數(shù)據(jù)環(huán)境下的突發(fā)公共安全事件網(wǎng)絡(luò)輿情知識(shí)庫(kù)。本文研究的大數(shù)據(jù)環(huán)境下突發(fā)公共安全事件網(wǎng)絡(luò)輿情預(yù)警系統(tǒng)關(guān)鍵技術(shù)將解決網(wǎng)絡(luò)輿情數(shù)據(jù)特征提取、網(wǎng)絡(luò)輿情知識(shí)庫(kù)構(gòu)建等問題。
Map/Reduce是面向大數(shù)據(jù)分析和處理的并行計(jì)算模型,是實(shí)現(xiàn)大數(shù)據(jù)背景下突發(fā)公共安全事件網(wǎng)絡(luò)輿情分析的工具。本文通過網(wǎng)絡(luò)爬蟲等軟件獲得與突發(fā)公共安全事件相關(guān)的網(wǎng)頁(yè)信息,將網(wǎng)址和網(wǎng)頁(yè)內(nèi)容作為Map函數(shù)參數(shù)傳遞進(jìn)去,計(jì)算得到中間鍵值對(duì)<突發(fā)公共安全事件詞匯,所在網(wǎng)頁(yè)段落文字>,再以該中間鍵值對(duì)為輸入,使用Reduce函數(shù)計(jì)算得到該詞匯的特征及特征值。通過Map和Reduce函數(shù)的定義使得網(wǎng)絡(luò)輿情中雜亂無章的數(shù)據(jù)得到有效整理,得到含有突發(fā)公共安全事件特征及特征值列表的有效數(shù)據(jù)。
Map/Reduce從網(wǎng)絡(luò)輿情數(shù)據(jù)中抽取出的突發(fā)公共安全事件數(shù)據(jù)特征及特征值列表封裝成Web服務(wù)的形式發(fā)布服務(wù)器上進(jìn)行下一步分析。下面給出Web服務(wù)定義及Web服務(wù)約減算法。
(1)Web服務(wù)定義
服務(wù)由若干輸入構(gòu)成,輸入是數(shù)據(jù)特征及特征值列表類型序?qū)?。具體定義如下:
(2)Web服務(wù)約減算法
由于網(wǎng)絡(luò)輿情中數(shù)據(jù)量過大,產(chǎn)生的服務(wù)過多,冗余也較多,影響計(jì)算速度,所以在正是計(jì)算之前先進(jìn)行服務(wù)約減?;舅惴ㄈ缦拢?/p>
for i=1 to n do
for j=1 to n do
delete sjfrom S.
end
買車、全家海外旅行,這些大宗消費(fèi)可能一下子就花掉家庭幾個(gè)月的收入,在相關(guān)的規(guī)劃上要審慎。新婚夫妻最容易出現(xiàn)的就是被甜蜜沖昏頭腦,想到就做,結(jié)果在真正需要用錢的時(shí)候卻陷入困境。針對(duì)家庭的大宗消費(fèi),不妨多溝通多商量,看看是否真正需要再作決定。
siand sjkeep only one.
end
end
end
按照上述方法得到的服務(wù)隊(duì)列是最簡(jiǎn)化的服務(wù)隊(duì)列。
當(dāng)前各領(lǐng)域成型知識(shí)庫(kù)已有50多種,但在突發(fā)公共安全事件領(lǐng)域還未構(gòu)建出知識(shí)庫(kù),由于突發(fā)公共安全事件具有其獨(dú)特的特性,與其他領(lǐng)域知識(shí)概念完全不同,所以該領(lǐng)域的知識(shí)庫(kù)需要單獨(dú)構(gòu)建。本文采用手工構(gòu)建和半監(jiān)督自動(dòng)構(gòu)建相結(jié)合的方法構(gòu)建突發(fā)公共安全事件知識(shí)庫(kù)。
(1)建立突發(fā)公共安全事件概念模型
構(gòu)建突發(fā)公共安全事件概念模型的幾個(gè)基本構(gòu)成要素,包括抽取概念、實(shí)例、特征和關(guān)系。突發(fā)公共安全事件概念模型:,是突發(fā)公共安全事件對(duì)象集合;
(2)手工構(gòu)建突發(fā)公共安全事件知識(shí)庫(kù)技術(shù)
依據(jù)已有突發(fā)公共安全事件網(wǎng)絡(luò)輿情數(shù)據(jù),通過Map/Reduce模型計(jì)算得到網(wǎng)絡(luò)輿情數(shù)據(jù)的特征和特征值,依據(jù)突發(fā)公共安全事件概念模型得到知識(shí),添加到知識(shí)庫(kù),完成手工構(gòu)建知識(shí)庫(kù)。
(3)基于LCRF的半監(jiān)督知識(shí)庫(kù)構(gòu)建技術(shù)
將捕獲的網(wǎng)絡(luò)輿情實(shí)時(shí)數(shù)據(jù)通過Map/Reduce模型計(jì)算得到特征和特征值,輸入LCRF(lined conditional random field,LCRF)模型進(jìn)行學(xué)習(xí),識(shí)別出來的是新的突發(fā)公共安全事件需要進(jìn)行預(yù)警,同時(shí)加入知識(shí)庫(kù),否則繼續(xù)監(jiān)控。由于LCRF模型訓(xùn)練時(shí)需要標(biāo)注好的數(shù)據(jù),而學(xué)習(xí)過程使用非標(biāo)注數(shù)據(jù)所以屬于半監(jiān)督學(xué)習(xí)過程。
break;
next
next
本文提出了基于Map/Reduce的網(wǎng)絡(luò)輿情數(shù)據(jù)特征及特征值提取方法用于從海量網(wǎng)絡(luò)數(shù)據(jù)中提取網(wǎng)絡(luò)輿情數(shù)據(jù)及其特征,提出基于Web服務(wù)的突發(fā)公共安全事件數(shù)據(jù)封裝技術(shù)用于封裝數(shù)據(jù)并進(jìn)行約減從而減少計(jì)算量,提出大數(shù)據(jù)環(huán)境下手工和半監(jiān)督相結(jié)合的突發(fā)公共安全事件知識(shí)庫(kù)構(gòu)建技術(shù)構(gòu)建專門的突發(fā)公共安全事件知識(shí)庫(kù),彌補(bǔ)這方面的空白。以上關(guān)鍵技術(shù)能夠解決當(dāng)前突發(fā)公共安全事件網(wǎng)絡(luò)輿情研究中亟待解決的缺少分析方法、缺少知識(shí)庫(kù)等問題,為后續(xù)網(wǎng)絡(luò)輿情分析奠定基礎(chǔ)。