廣西壯族自治區(qū)經濟信息中心 梁銘之
大數據(big data),指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。經濟網絡輿情信息是指人們借助互聯(lián)網,對經濟事務特別是經濟熱點、焦點問題所表現(xiàn)出來的有一定影響力、帶傾向性的意見或言論,是人們對于經濟事件的所有認知、態(tài)度、情感和行為傾向的集合。
經濟網絡段情監(jiān)測的基本內容包括網絡消費者信心分析、金融投資分析、房地產投資分析、雙創(chuàng)活力分析、生態(tài)環(huán)保監(jiān)測、價格監(jiān)測等方面。
網絡消費者信心分析,反映網民對經濟形勢的判斷和未來經濟發(fā)展的預期;投資分析從企業(yè)減負、投資準入和投資金融服務等方面反映民眾對當前投資環(huán)境的判斷和評價;房地產投資分析包括國家及各地樓市調控政策解讀、房地產交易情況、當地政府樓市政策分析、樓市熱點分析、房地產價格情況、下階段預期等相關問題;雙創(chuàng)活力分析從融資事件量、民眾對雙創(chuàng)的熱情程度等方面反映當地雙創(chuàng)活動的活力;生態(tài)環(huán)保監(jiān)測從網民反映的生態(tài)環(huán)保問題、對環(huán)保關注程度等方面監(jiān)測的生態(tài)環(huán)保情況;物價監(jiān)測從網民反映的消費問題、主要產品產量的監(jiān)測、生活資料和生產資料旬度價格監(jiān)測反映當地物價走勢。
利用大數據技術,對網絡交易平臺、社交網絡、自媒體網站、企業(yè)經營網站信息進行抓取、采集,通過對半結構化和非結構化數據的清洗、處理、分析,采用數據挖掘、自然語言處理等大數據手段,能快速分析領導關注熱點,輔助發(fā)現(xiàn)相關問題的解答方案。
數據挖掘技術是從海量的數據中發(fā)現(xiàn)隱含的、有意義的信息,并對未來的趨勢及行為做出預測,幫助人們進行決策。數據挖掘分為兩個的步驟:首先是確定業(yè)務對象,認清需要處理的問題及目的;二是數據處理,搜索與業(yè)務對象有關的數據信息,選擇合適的數據,通過數據預處理,對數據的質量進行分析,確定要挖掘操作的類型,建立適合的挖掘算法分析模型,對數據進行轉換、挖掘,最后得到分析結果并完成知識的同化。典型的數據挖掘系統(tǒng)通常由數據庫、知識庫、數據挖掘引擎等構成。系統(tǒng)可對數據庫、數據倉庫、萬維網或其他信息庫中的數據進行清理和集成,根據用戶的數據挖掘請求,數據庫或者數據倉庫服務器負責提取相關處理結構。知識庫主要包括某一領域知識,用于指導搜索或評估結果,完成數據挖掘任務。數據挖掘引擎是數據挖掘系統(tǒng)的基本組成部分,用于執(zhí)行特征化、關聯(lián)和相關分析、分類、預測、聚類分析、離群點分析和演變分析等任務。
文本情感分析是利用自然語言處理、機器學習、數據挖掘等技術,通過文本內容分析其作者的觀點、態(tài)度、情感或者情緒,分析的文本對象包括新聞、評論、微博等。文本情感分析要建立情感詞典,情感詞典是作為情感傾向性和情感極性判斷的重要依據,其質量決定了情感分析的效果,情感詞典要隨語言的發(fā)展進行不斷的擴展。情感詞典的擴充方法有兩種方式:一是基于共現(xiàn)或相似度的方法,利用種子情感詞、語義詞典以及包含情感詞的文本等資源,以候選詞與種子情感詞的共現(xiàn)、相似性等信息為依據,抽取情感詞并判斷其極性;二是基于分類的方法,將情感詞抽取和情感極性判斷視為分類問題,通過分類模型,將候選詞劃分到正面性、負面性和無極性三個類別中。
經濟網絡輿情系統(tǒng)結構包括數據采集層、處理存儲層、數據分析層和平臺應用層。
數據采集層,采集管理實現(xiàn)系統(tǒng)與上下層系統(tǒng)的接口對接,統(tǒng)一調度采集任務和進程,同時對信息進行統(tǒng)計分析和告警。采集配置實現(xiàn)對目標網站的采集配置進行管理。爬蟲以分布式的方式部署爬蟲,實現(xiàn)了爬蟲多任務調配、多線程執(zhí)行的工作機制,保障了爬蟲的穩(wěn)定、高效執(zhí)行任務。
處理存儲層,數據處理實現(xiàn)輿情數據預處理,包括數據排重、數據清洗等。數據存儲實現(xiàn)數據的存儲和讀取。
數據分析層搭載了分詞程序、遺忘算法、傳播指數分析、實體抽取、情感分析、熱詞分析、地域分析、統(tǒng)計分析、可視化分析等分析程序。
平臺應用層主要實現(xiàn)了經濟輿情分類監(jiān)測、事件監(jiān)測、輿情預警、輿情報告等前端應用。
經濟輿情監(jiān)測系統(tǒng)架構圖
主要功能包括:輿情工作臺、分類輿情、輿情預警和輿情預告。
輿情工作臺主要展示經濟發(fā)展整體的輿情監(jiān)測概況,包括輿情統(tǒng)計表、輿情漏斗、輿情欄目等功能。輿情統(tǒng)計表展示各個載體和時間的二維表數據透視結果;輿情漏斗展示從全量數據、相關數據、輿情數據、負面數據、正面數據以及預警數據的數據分析漏斗;輿情專題可以在經濟發(fā)展專題設置中自定義分類和標簽,選擇數據展示方式后進行展示。
分類輿情是與對濟發(fā)展數據進行分析展示和數據查詢處理的工作系統(tǒng),可按照設置的分類和標簽進行聯(lián)動篩選;支持輿情自主研判、手動加入預警、數據排重以及數據排序等;針對每一個經濟問題分類的數據集合進行圖表分析,包括載體趨勢、文章屬性、站點分布、任務活躍度分析等。實現(xiàn)經濟分類輿情信息的實時更新,按照各種維度靈活的篩選和檢索以及圖表分析。
輿情預警針對與營商環(huán)境相關的重點輿情數據進行預警,包括手動預警和自動預警,手動預警即在全景輿情中邊瀏覽邊選中預警,自動預警即預先設置關鍵詞進行實時分析預警。
輿情報告是經濟輿情監(jiān)測成果的輸出功能,可針對指定的經濟輿情分類進行報告制作,同時系統(tǒng)自動生成智能的月報,用戶可自主訂閱報告。
構建大數據經濟輿情之“雙創(chuàng)指數”。
2015年6月和2017年7月國務院相繼發(fā)布多個雙創(chuàng)指導文件,啟動和加速了我國歷史上前所未有的雙創(chuàng)大潮。廣西壯族自治區(qū)作為“一帶一路”有機銜接重要門戶,以及重點產業(yè)的承載區(qū),構建廣西雙創(chuàng)指數,全面反映廣西各個領域、各個行業(yè)、各個層級的創(chuàng)新、創(chuàng)業(yè)情況,對于監(jiān)測廣西創(chuàng)業(yè)環(huán)境及出臺創(chuàng)業(yè)支持政策有著重要參考意義。
廣西雙創(chuàng)指數以“數據可采集、指標可計算、方法可比對、結果可解析、決策可參考”等為核心,以“規(guī)模、結構、質量”三個特征維度為著眼點,以系統(tǒng)梳理廣西雙創(chuàng)活動的“潛力、實力、動力、活力、合力”為突破口,構建雙創(chuàng)指數測度體系的具體思路。
在指標體系研究的設計過程中參照和汲取國內外先進的經驗,創(chuàng)新性的發(fā)展一套指標體系。在指標的選取上既有宏觀的指標,又有微觀的指標,微觀指標來源于對創(chuàng)業(yè)者的調研以及從線上獲得客觀的微觀指標。因為雙創(chuàng)指數會持續(xù)、動態(tài)的更新和發(fā)布,所以數據可得性是未來指標體系繼續(xù)發(fā)展非常重要的基礎條件。另外,在指標的選取上還注重橫向可比,跟國內、國際上先進的創(chuàng)新創(chuàng)業(yè)的指數構成可比性,能精準的衡量廣西雙創(chuàng)在國內和國際的位置。
通過各行業(yè)部門統(tǒng)計數據和互聯(lián)網采集數據,借助大數據的技術手段,選取科技、經濟、人才、環(huán)境四個與雙創(chuàng)工作關聯(lián)度較大的影響因素,形成四個一級指標,構建廣西雙創(chuàng)指數。使用大數據的清洗、分析、建模方法計算雙創(chuàng)指數,科學、準確、及時地反映經濟結構,優(yōu)化升級的新進展。實現(xiàn)按月發(fā)布廣西全區(qū)及行業(yè)的雙創(chuàng)指數,較好的輔助“雙創(chuàng)“決策。
本文提出了一個大數據經濟網絡輿情監(jiān)測系統(tǒng)的設計方案和具體監(jiān)測案例,從使用的關鍵技術、系統(tǒng)功能方面進行了描述、設計,利用該系統(tǒng)能發(fā)現(xiàn)話題并對經濟輿情進行跟蹤、分析,使經濟管理者和決策者能及時監(jiān)經濟網絡輿情,輔助經濟決策。
[1]劉文.網絡輿情監(jiān)測系統(tǒng)設計及實現(xiàn)[J].指揮信息系統(tǒng)與技術,2015(10):56-60
[2]姚曄,石翠.網絡輿情監(jiān)控分析系統(tǒng)的構建探討[J].科技展望,2016(12):262-263