張麗媛 李美子
摘 要:本文提出一種基于云計算的大規(guī)模輿情數(shù)據(jù)服務(wù)平臺設(shè)計方案,依托大規(guī)模網(wǎng)頁采集分析技術(shù)、云計算數(shù)據(jù)處理技術(shù)、社會關(guān)系輿情傳播分析技術(shù)和文本流輿情主題分類技術(shù),針對不同需求的用戶提供按需計費、可定制和可彈性管理的商業(yè)服務(wù)模式,實現(xiàn)網(wǎng)絡(luò)輿情服務(wù)。
關(guān)鍵詞:云計算 數(shù)據(jù) 服務(wù)平臺
中圖分類號:TP3
長期以來,互聯(lián)網(wǎng)輿情是人們所關(guān)注的重點。通過網(wǎng)絡(luò)所發(fā)布、傳播、共享的輿情信息,是展現(xiàn)廣大人民群眾心態(tài)、體現(xiàn)政府能力和信心的重要手段。隨著當(dāng)前社交網(wǎng)絡(luò)、移動網(wǎng)絡(luò)等新型互聯(lián)網(wǎng)平臺的出現(xiàn),目前對互聯(lián)網(wǎng)輿情服務(wù)的要求正在日益增強(qiáng)。
現(xiàn)有的互聯(lián)網(wǎng)輿情監(jiān)測評估系統(tǒng)在語義處理上采用基于關(guān)鍵詞的技術(shù),其在網(wǎng)頁處理上直接的局限表現(xiàn)在不能有效地進(jìn)行實體識別,影響了主題定義的質(zhì)量,導(dǎo)致系統(tǒng)在熱點追蹤、文本分類等核心功能的實現(xiàn)質(zhì)量不高;在數(shù)據(jù)處理能力方面,由于系統(tǒng)運行在能力有限的物理分割服務(wù)器上,導(dǎo)致海量輿情數(shù)據(jù)的分析能力不足[1]。本文引入語義計算[2]、云計算[3]、主題檢測等技術(shù),為輿情分析提供了強(qiáng)大的數(shù)據(jù)采集、存儲和處理能力,可以依據(jù)不同需求的用戶提供不同的輿情分析能力和服務(wù)。
本文所提出的針對互聯(lián)網(wǎng)中出現(xiàn)的新型移動平臺、社交平臺、輿情數(shù)據(jù)海量化等新興狀態(tài),采用云計算技術(shù)、社交網(wǎng)絡(luò)分析技術(shù)、語義計算技術(shù)、文本流主題檢測技術(shù)、垂直搜索引擎技術(shù)等在內(nèi)的多項新型技術(shù),針對多樣化和海量化的輿情數(shù)據(jù)展開監(jiān)測和評估,并通過云計算所具備的全新計算架構(gòu),針對不同需求的用戶提供按需計費、可定制和可彈性管理的商業(yè)服務(wù)模式,最大程度上契合用戶的需求并降低用戶的使用費用,通過空間、虛擬機(jī)和輿情評估模塊定制等跳過用戶自行投資信息化硬件建設(shè)的成本,為用戶提供低價優(yōu)質(zhì)的全新輿情監(jiān)測與評估體驗。
1 整體方案
下面,本文將分別從輿情檢測技術(shù)、云計算平臺架構(gòu)、輿情傳播分析技術(shù)等三個方面闡述本文所提出平臺的技術(shù)方案。
1.1 輿情檢測技術(shù)
主要由三個部分組成:(1)信息采集:主要完成網(wǎng)絡(luò)輿情信息的采集工作,用戶可以通過指定站點、頻道、時間范圍等對這部分功能進(jìn)行定制。信息采集主要通過Crawler對網(wǎng)頁進(jìn)行采集,或者通過專用DB導(dǎo)出工具,直接掛接到站點的服務(wù)器上實現(xiàn)輿情信息的高效采集。(2)用戶接口:允許用戶采用專門需求對自己的評估監(jiān)測需求;允許用戶專業(yè)特點、應(yīng)用體驗對系統(tǒng)的功能重新進(jìn)行定制;完成輿情監(jiān)測評估的報告的反饋呈現(xiàn)功能。(3)輿情監(jiān)測評估控制:對監(jiān)測評估需求進(jìn)行語義解析,并據(jù)此調(diào)度監(jiān)測評估程序庫的程序,來完成監(jiān)測評估結(jié)果,而后將結(jié)果以圖形、表格、文字報告等形式反饋給用戶。
1.2 云計算平臺
云計算平臺主要分為四個層次:基礎(chǔ)資源服務(wù)層(即IaaS層)、數(shù)據(jù)服務(wù)層(即DaaS層)、平臺服務(wù)層(即PaaS層)和軟件服務(wù)層(即SaaS層)。在這四個層次中:(1)IaaS層:基礎(chǔ)資源虛擬化、基礎(chǔ)資源動態(tài)負(fù)載平衡、超大規(guī)模高速網(wǎng)絡(luò)聚合帶寬技術(shù)、云安全控制。(2)DaaS層:基于ETL的海量輿情實時信息處理、大規(guī)模輿情信息文本流分類管理、海量輿情數(shù)據(jù)安全防災(zāi)管理。該層中將通過結(jié)構(gòu)化數(shù)據(jù)庫(Oracle)和非結(jié)構(gòu)化數(shù)據(jù)庫(HBase和Hive)等同時管理存儲數(shù)據(jù)。(3)PaaS層:標(biāo)準(zhǔn)接口管理、異構(gòu)數(shù)據(jù)交互與轉(zhuǎn)化、服務(wù)部署、任務(wù)分配與平衡。該層中將部署節(jié)點控制器、集群控制器等實現(xiàn)平臺管理。(4)SaaS層:統(tǒng)一訪問門戶、輿情采集、管理與分析挖掘應(yīng)用部署。
1.3 輿情傳播分析技術(shù)
當(dāng)重點聚焦當(dāng)前輿情傳播中的用戶社交關(guān)系的分析和處理:(1)用戶社交關(guān)系路徑獲取與分析技術(shù):實現(xiàn)不同ID情況下用戶身份的統(tǒng)一識別和認(rèn)證;繼而對用戶的網(wǎng)絡(luò)社交關(guān)系、社交圈等進(jìn)行記錄和分析,從而獲取用戶對于每一個輿情主題的傳播路徑等。(2)用戶社交關(guān)系的計算基礎(chǔ)技術(shù):該技術(shù)為用戶社交關(guān)系、社交圈、社區(qū)身份等信息提供可計算的邏輯基礎(chǔ),從而使每一個用戶的社交關(guān)系、身份信息等具備可定性或定量計算的可能。(3)用戶關(guān)系在輿情傳播中的路徑和影響力預(yù)測技術(shù):該技術(shù)可計算并預(yù)測不同程度和性質(zhì)的用戶關(guān)系可能會導(dǎo)致輿情主題的傳播方向,傳播對象和傳播群體;同時可針對不同用戶關(guān)系,預(yù)測這些關(guān)系和路徑對輿情主題傳播可能產(chǎn)生的附加影響力。
2 關(guān)鍵技術(shù)
本文所提出的輿情數(shù)據(jù)服務(wù)平臺主要包括以下四個方面核心技術(shù)。
(1)大規(guī)模網(wǎng)頁信息采集、網(wǎng)頁信息抽取、文本實體識別技術(shù):通過構(gòu)建云計算平臺,利用云計算技術(shù)實現(xiàn)計算資源整合,并進(jìn)一步利用虛擬機(jī)動態(tài)分配、網(wǎng)絡(luò)節(jié)點分布式計算等實現(xiàn)大規(guī)模網(wǎng)頁輿情數(shù)據(jù)的爬去的采集;利用語義計算、垂直搜索引擎技術(shù)、文本過濾、自然語言處理技術(shù)等實現(xiàn)了網(wǎng)頁信息的抽取與文本實體識別,最終完成輿情信息的采集、分類、抽取等功能。
(2)基于云計算的大規(guī)模、分布式輿情信息分析處理能力:在云計算平臺下,劃分出專門的虛擬機(jī),通過云平臺下MapReduce并行算法,完成輿情信息的漢詞切分、語料分析、主題提取和分類、輿情情感計算,最終實現(xiàn)輿情信息的分析處理功能。
(3)基于社會關(guān)系的移動社交網(wǎng)絡(luò)(微博等)信息輿情傳播模式分析技術(shù):依據(jù)互聯(lián)網(wǎng)媒體平臺中用戶的社會關(guān)系,對移動互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等媒體中所出現(xiàn)的輿情數(shù)據(jù)進(jìn)行深度分析,利用用戶社會關(guān)系實現(xiàn)對輿情傳播模式分析,最終完成主題傳播跟蹤、輿情影響力評估、輿情預(yù)測等功能。
(4)大規(guī)模輿情文本流主題檢測分類技術(shù):針對互聯(lián)網(wǎng)大規(guī)模文本流輿情數(shù)據(jù),利用在線輿情文本進(jìn)行主題建模技術(shù)、在云計算平臺進(jìn)行自動的非監(jiān)督學(xué)習(xí),對輿情文本進(jìn)行分類、檢測等。
3 結(jié)語
本文提出一種以云計算、語義計算、用戶關(guān)系計算、文本流主題檢測等技術(shù)為基礎(chǔ),克服了傳統(tǒng)輿情檢測系統(tǒng)僅僅依賴于關(guān)鍵字、詞頻等統(tǒng)計手段的缺點,同時涵蓋了互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等不同傳統(tǒng)和新興網(wǎng)絡(luò)載體,以面向服務(wù)的互聯(lián)網(wǎng)輿情監(jiān)測評估系統(tǒng)作為主,并向行業(yè)應(yīng)用以及個人應(yīng)用服務(wù)。
參考文獻(xiàn)
[1] 鄭魁,疏學(xué)明,袁宏永.網(wǎng)絡(luò)輿情熱點信息自動發(fā)現(xiàn)方法[J].計算機(jī)工程,2010,36(3):4-6.
[2] 張波,向陽,黃震華.基于本體的決策問題語義理解及精煉方法[J].電子學(xué)報, 2012,40(8):1603-1608.
[3] Creeger M.,CTO Roundtable:Cloud Computing Communications of the ACM,vol.52,no.8,august 2009:50-56. 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2013)03(b)-0020-01