陳靜宇,劉 濤
(1.安徽財經(jīng)大學文學院,安徽 蚌埠233030;2.安徽大學藝術(shù)與傳媒學院新聞播音系,安徽 合肥 230011)
互聯(lián)網(wǎng)和計算機技術(shù)高度發(fā)達催生了大數(shù)據(jù)時代的到來,目前基于大數(shù)據(jù)的網(wǎng)絡輿情研究通常是利用開源框架工具和開源數(shù)據(jù),主要有垂直搜索引擎、網(wǎng)絡社交媒體以及各類專業(yè)數(shù)據(jù)庫,實時采集文本和圖像信息,并用搜索框架搭建一套檢索系統(tǒng),實現(xiàn)信息的檢索和分類,最后通過超算服務器并輔以業(yè)內(nèi)的專家研判,獲得有價值的信息,以精確描繪現(xiàn)狀,預測社會輿論的趨勢、預測未來,從而指導決策和具體方案的實施.由此,大數(shù)據(jù)輿情研判潛在的價值也越來越受到專業(yè)人士及政府管理部門的重視.
劉偉祥和崔林山[1]對公安交通管理大數(shù)據(jù)研判分析平臺進行研究,更好地整合了行業(yè)信息資源,提高數(shù)據(jù)統(tǒng)計分析能力和效率.鄒婷[2]提出智能交通卡口數(shù)據(jù)研判分析系統(tǒng),該系統(tǒng)對卡口過車數(shù)據(jù)進行分析處理,提煉分析模型,從而提高辦案效率.丁曉蔚等[3]提出大數(shù)據(jù)背景下重大公共危機事件輿情研判,并以2015年天津大爆炸事件為例分析了輿情研判的意義.馬丁等[4]對網(wǎng)絡犯罪原始電子數(shù)據(jù)研判系統(tǒng)開展研究,進行有效性和真實性的研判,為偵查人員提供技術(shù)支持.呂平[5]對農(nóng)信社歷史數(shù)據(jù)及實際經(jīng)營情況進行分析,通過系統(tǒng)平臺對業(yè)務批量處理,完成任務的監(jiān)控和統(tǒng)計.房地產(chǎn)業(yè)與大數(shù)據(jù)有千絲萬縷的聯(lián)系,然而這方面的研究工作亟待加強.本文以合肥市房地產(chǎn)業(yè)數(shù)據(jù)、輿情監(jiān)管為例,著重分析當前合肥房地產(chǎn)業(yè)大數(shù)據(jù)的平臺建設、數(shù)據(jù)儲存、數(shù)據(jù)分析以及研判路徑,以帶動更多行業(yè)人士和研究者關(guān)注,推動大數(shù)據(jù)在房地產(chǎn)業(yè)方面的應用和發(fā)展.
合肥是安徽省省會城市,2016年房價年度漲幅高達48.4%,位居全球城市房價漲幅第一.城市的高速發(fā)展、輻聚效應和外來人口的迅速增加,促進了合肥房地產(chǎn)業(yè)的繁榮.據(jù)統(tǒng)計,從2009到2014年合肥增加人口超過 250 萬,增加比例約為50% .合肥常住人口從2011年的752萬增長到2015年末的779萬.合肥市統(tǒng)計局統(tǒng)計顯示,2016年末合肥人口786.9萬,2015年在合肥的購房人群中,省外的比例為5.8%,合肥本地戶籍購房比例為35.8%,來自省內(nèi)其他城市的比例為58.4%.隨著合肥市房地產(chǎn)行業(yè)渠道規(guī)模的不斷擴大,業(yè)務量不斷增長,房地產(chǎn)企業(yè)自身的數(shù)據(jù)已很難支撐需求.這就需要通過建立房地產(chǎn)數(shù)據(jù)平臺及時加快對房產(chǎn)數(shù)據(jù)的存儲、管理和分析,實現(xiàn)數(shù)據(jù)共享,提高政府相關(guān)部門對房地產(chǎn)業(yè)數(shù)據(jù)的利用效率,針對房地產(chǎn)運行情況有效做好政策調(diào)整等措施.因此,合肥房產(chǎn)輿情數(shù)據(jù)平臺的建設勢在必行.
合肥市房地產(chǎn)輿情分析系統(tǒng)信息源涵蓋了論壇、微博、新聞網(wǎng)站、博客、微信、手機客戶端等,系統(tǒng)對采集到的網(wǎng)絡房地產(chǎn)信息進行數(shù)據(jù)分類,并利用情感正負面分析技術(shù),幫助用戶真正的掌握互聯(lián)網(wǎng)精準的、即時的、全面的房地產(chǎn)輿情信息,從而實現(xiàn)輿情的及時發(fā)現(xiàn)和應對處理.房地產(chǎn)數(shù)據(jù)倉庫架構(gòu)設計主要包括六個部分,分別是數(shù)據(jù)采集層、數(shù)據(jù)處理層、數(shù)據(jù)存儲、管理層、數(shù)據(jù)服務層、數(shù)據(jù)應用層以及底層數(shù)據(jù)處理工具,系統(tǒng)架構(gòu)圖如圖1所示.
圖1 數(shù)據(jù)倉庫架構(gòu)圖
(1)數(shù)據(jù)采集層:由于房地產(chǎn)數(shù)據(jù)源包羅萬象,而不同的數(shù)據(jù)源會存在形式多樣不合法、不統(tǒng)一等,因此需要配置各種不同的規(guī)則模板,實現(xiàn)對互聯(lián)網(wǎng)公開的信息進行采集.
圖2 數(shù)據(jù)獲取層結(jié)構(gòu)圖
(2)數(shù)據(jù)處理層:針對數(shù)據(jù)采集層抓取到的數(shù)據(jù),利用Jsoup、XPath、正則等網(wǎng)頁解析工具將源數(shù)據(jù)進行結(jié)構(gòu)化的抽取,同時將源數(shù)據(jù)統(tǒng)一存放于 HDFS(分布式文件系統(tǒng))中,然后再映射到數(shù)據(jù)倉庫,如圖2所示:
(3)數(shù)據(jù)存儲、管理層:由元數(shù)據(jù)和外源數(shù)據(jù)兩個部分組成.在數(shù)據(jù)存儲、管理層中存儲著房地產(chǎn)行業(yè)的主要內(nèi)容,房地產(chǎn)數(shù)據(jù)倉庫中存儲管理著海量的房地產(chǎn)的元數(shù)據(jù)和外部收集的歷史數(shù)據(jù),并且還具備海量數(shù)據(jù)的檢索、統(tǒng)計和分析等多種應用功能,如圖3所示:
圖3 數(shù)據(jù)存儲層結(jié)構(gòu)
元數(shù)據(jù)管理,元數(shù)據(jù)能夠幫助相關(guān)人員便捷快速的找到他們所需要的房地產(chǎn)相關(guān)的數(shù)據(jù).可分為兩類,分別是業(yè)務元數(shù)據(jù)和技術(shù)元數(shù)據(jù),其中業(yè)務元數(shù)據(jù)描述了數(shù)據(jù)倉庫中的數(shù)據(jù)業(yè)務層面,能夠讓無計算機背景的業(yè)務人員清晰其表述的意義;另外一種技術(shù)元數(shù)據(jù)則是系統(tǒng)中的一些技術(shù)細節(jié)數(shù)據(jù),便于開發(fā)者管理和使用數(shù)據(jù)倉庫.
(4)數(shù)據(jù)服務層:主要功能是給上層的數(shù)據(jù)應用層提供不同數(shù)據(jù)接口.在此利用一系列的自然語言處理技術(shù),如中文分詞、情感分析、文本分類等.
(5)數(shù)據(jù)應用層:直接提供和用戶交互的界面層,將系統(tǒng)存儲的海量房地產(chǎn)數(shù)據(jù)清晰歸類地呈現(xiàn)在用戶眼前.可以幫助相關(guān)人員便捷、高效地進行輿情信息數(shù)據(jù)統(tǒng)計和分析,從而完成后臺數(shù)據(jù)到前端數(shù)據(jù)的呈現(xiàn),基于分布式存儲的數(shù)據(jù)應用結(jié)構(gòu),如圖4所示:
圖4 數(shù)據(jù)應用層結(jié)構(gòu)圖
(6)底層數(shù)據(jù)處理工具:底層數(shù)據(jù)處理主要是基于一些信息解析工具,如Jsoup、Xpath、正則等,對數(shù)據(jù)進行精細化抽取,并將抽取后的結(jié)構(gòu)化數(shù)據(jù)存儲在數(shù)據(jù)倉庫中,然后把存儲的數(shù)據(jù)同步遷移到MySQL中,同時也把處理過的數(shù)據(jù)的MD5值存儲在 Mongodb中便于信息處理中去重過濾.
針對上述需求分析以及概述情況,建立合肥市房地產(chǎn)數(shù)據(jù)倉庫需實現(xiàn)的功能:
(1)合肥市房地產(chǎn)分類搜索功能,如按地理位置、房產(chǎn)類型、房產(chǎn)戶型等分類信息進行有效檢索;
(2)合肥市房地產(chǎn)數(shù)據(jù)導入報表功能;
(3)合肥市房地產(chǎn)數(shù)據(jù)智能瀏覽和分析功能;
(4)合肥市房地產(chǎn)數(shù)據(jù)可視化展示平臺功能.后續(xù)會進行相應的功能介紹及數(shù)據(jù)呈現(xiàn)方式.
多維模型是一種針對具有多維結(jié)構(gòu)的數(shù)據(jù)建模技術(shù).在實際生活中,事物之間的關(guān)聯(lián)通常都是多種的,如房地產(chǎn)樓盤銷售中相關(guān)聯(lián)的有樓盤所在地域、樓盤類型、開發(fā)商、時間等.而多維模型就是基于此概念,從多層次、多角度地去呈現(xiàn)出數(shù)據(jù)間的這種聯(lián)系.首先對相關(guān)數(shù)據(jù)進行規(guī)范的整理,抽取出中間的屬性信息并進行分類和重組,然后對這些重組后的數(shù)據(jù)進行多維模型結(jié)構(gòu)的建立,形成一個直觀有效的數(shù)據(jù)多維視圖,輔助使用者進行決策分析.
在數(shù)據(jù)倉庫多維模型中,每一個對象都是由一系列的屬性來刻畫:
事實(fact):指的是目標數(shù)據(jù),一般利用數(shù)據(jù)屬性對此數(shù)據(jù)進行量化的分析描述.
度量值(measure):事實的量化屬性,按照標準劃分,一般包含可加的、不可加的和半可加的三種.
維(dimension):對事實進行分析的角度,維度性規(guī)定了維的所有具體特征和層次.如時間維度可劃分為年、季度、月等不同的層次.
維成員(member):指的是維中的值.對多層維度而言,則是指在不同層次維上取值的組合.如在地理維上,“某省”、“某市”、“某區(qū)”等都是維成員.
立方體(cube):數(shù)據(jù)的多維矩陣,將數(shù)據(jù)組織并匯總到一個由一組維度和度量值所定義的多維結(jié)構(gòu)中.如圖5所示的四維樓盤銷售模式,呈現(xiàn)出了房地產(chǎn)數(shù)據(jù)倉庫的一個數(shù)據(jù)立方體和其中的各個維.這是一個經(jīng)典的多維模型,形象地表達出數(shù)據(jù)立方體的目的就是能夠沿著不同維度,如開發(fā)商、樓盤類型、所在地域、時間、維來對度量值進行分析.
圖5 四維樓盤銷售模型
通常情況,維之間的事實都是多對多的關(guān)系,而事實和具體的維則是多對一的關(guān)系.如在事實數(shù)據(jù)中,一個事實僅對應一個開發(fā)商在某一個月某一個地域銷售樓盤的數(shù)量,而銷售樓盤的數(shù)量,也可能僅對應銷售時間、銷售樓盤地域等.在一些情況下,事實與特定維間是有多對多的關(guān)系,在地域維上,銷售意向事實和樓盤類型形成了多對多的關(guān)系,即一個樓盤類型可被多個客戶選定,一個客戶也可以意向多個樓盤類型.在定義出多維模型結(jié)構(gòu)的基礎上可清晰地定義出用戶需求,基于這些需求數(shù)據(jù),利用OLAP技術(shù),用戶可以進行更深入的分析工作.
目前業(yè)內(nèi)最流行的數(shù)據(jù)倉庫的模型是多維模型,而對多維數(shù)據(jù)模型進行分類的,最典型的包括三種,分別是星型模型、雪花模型和星系模型.最常見的模型是星型模型,它的數(shù)據(jù)倉庫包含了一個海量無冗余的數(shù)據(jù)事實表和一組小的附屬維表;星型模型進一步延伸后則是雪花模型,是在星型的基礎上將維表中可分解的數(shù)據(jù)再繼續(xù)分解到下一層表中;而針對由多個事實表組成的復雜數(shù)據(jù)倉庫系統(tǒng),上述兩種系統(tǒng)并不能很好地支持,所以有了第三種模型,即星系模型.星系模型是一種適用于復雜數(shù)據(jù)倉庫系統(tǒng),由多個事實表組成,描述我們需要的數(shù)據(jù),這些事實表分為特有維表和共享維表.
由于房地產(chǎn)數(shù)據(jù)涉及到樓盤信息、房屋信息、客戶信息等,內(nèi)容紛繁復雜,這些數(shù)據(jù)結(jié)構(gòu)并不太一致,需要用不同的事實表來進行描述,并且這些事實表具有錯綜復雜的關(guān)系,所以選擇星系模型為房地產(chǎn)數(shù)據(jù)倉庫建模,如圖6.
首先整個房地產(chǎn)數(shù)據(jù)倉庫的模型結(jié)構(gòu)需要設計出來,然后適當?shù)剡x擇房地產(chǎn)數(shù)據(jù)的一個子集,如樓盤信息數(shù)據(jù),作為設計案例的數(shù)據(jù)基礎,在此基礎上構(gòu)建房地產(chǎn)數(shù)據(jù)的倉庫模型.因為在樓盤數(shù)據(jù)中提取的維度通常只是多個維度中的一個,所以整個樓盤數(shù)據(jù)倉庫模型是一個更高維的模型.
圖6 房地產(chǎn)數(shù)據(jù)倉庫星系模型
針對上述星系模型,定義立方體和維可使用數(shù)據(jù)挖掘查詢語言DMQL來實現(xiàn).
立方體的定義形式如下:
define cube
維定義形式如下:
define dimension
使用原語來形式化地描述樓盤、房屋、客戶數(shù)據(jù)倉庫,如圖7、8、9所示.
圖7 樓盤數(shù)據(jù)倉庫星型模型
圖8 房屋數(shù)據(jù)倉庫星型模型
圖9 客戶數(shù)據(jù)倉庫星型模型
通過建立房地產(chǎn)數(shù)據(jù)倉庫以及多維模型的分析,可以讓管理人員輕松地從各種視角智能瀏覽查看和分析房地產(chǎn)歷史數(shù)據(jù),且通過MySQL庫可以對房地產(chǎn)樓盤數(shù)據(jù)進行優(yōu)化存儲、維護、檢索數(shù)據(jù)等,在最大程度上實現(xiàn)合肥市房地產(chǎn)輿情信息開放數(shù)據(jù)的共享,如圖10所示.
圖10 房地產(chǎn)數(shù)據(jù)智能瀏覽結(jié)構(gòu)圖
以建立房地產(chǎn)數(shù)據(jù)倉庫為基礎,通過對數(shù)據(jù)的搜集、整理、匯總,利用統(tǒng)計分析手段實現(xiàn)對房地產(chǎn)輿情的長效預警,方便用戶對房屋價格、預期和區(qū)域偏好等條件進行選擇,根據(jù)用戶設置的偏好系統(tǒng)將自動篩選符合的房產(chǎn)輿情信息,并實現(xiàn)與用戶智能交互,以滿足消費者對房地產(chǎn)輿情信息的需求.
房地產(chǎn)輿情分析涉及的數(shù)據(jù)分析技術(shù)主要包括文本分類與聚類、自動文摘、話題發(fā)現(xiàn)與跟蹤分析及文本傾向性分析等.
上述房地產(chǎn)數(shù)據(jù)以及統(tǒng)計分析工具是基于HanLP自然語言技術(shù)進行處理,且由一系列模型與算法組成的,主要包括:中文分詞、CRF分詞、用戶自定義詞典、TextRank關(guān)鍵詞提取等技術(shù),以下主要介紹 CRF分詞模型以及基于隱馬爾可夫模型中的短語提取分詞設計,后續(xù)會基于該模型進行分析房地產(chǎn)相關(guān)數(shù)據(jù),并在前臺平臺展示以及智能瀏覽:
(1)CRF把分詞當作字的詞位分類問題,通常定義字的詞位信息如下:
(2)CRF分詞的步驟是先對詞位進行標注,然后將標記為B和標記E之間的字,以及標記為S的單字構(gòu)成分詞.
(3)CRF分詞實例:
(4)用戶自定義詞典
CustomDictionary是一份用戶自定義的全局的通用詞典,可以根據(jù)具體需求進行增刪改,可影響所有的分詞器.另外可以在任何分詞器中關(guān)閉它.而且該詞典可通過代碼進行動態(tài)增刪改,不會對詞典文件產(chǎn)生影響.CustomDictionary主詞典文本默認路徑是data/dictionary/custom/CustomDictionary.txt,用戶可以在此增加自己的詞語(不推薦);如有需求用戶也可以單獨新建立一個文件,并通過設置默認詞典的路徑CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt;我的詞典.txt;來追加詞典,以此來獲取房地產(chǎn)相關(guān)的信息,供前臺展示.
(5)TextRank算法
其原理就是從文章中自動抽取關(guān)鍵句,然后根據(jù)規(guī)定好的一個權(quán)重評分標準,給每個關(guān)鍵句進行打分,并列出排名靠前的句子,生成短語或關(guān)鍵句云圖,如下算法公式:
該公式中,左邊WS(Vi)表示單獨一個句子的權(quán)重值,Vi表示某個句子;公式右側(cè)的求和表達式的意思是每個相鄰句子對本句子的貢獻程度,d表示阻尼系數(shù),是用來克服這個公式中“d *”后面的部分的固有缺陷用的,Vj表示鏈接到Vi的句子(即Vi的入鏈),In(Vi)表示句子Vi的所有入鏈的集合,Out(Vj)表示句子,Wji是表示兩個句子間的相似程度大小,而WS(Vj)代表上次迭代j的權(quán)重.此處相鄰句子和提取關(guān)鍵字時候是完全不同的,在此默認所有句子之間都是相鄰關(guān)系,不再提取窗口.
(1)基于設置合肥市房地產(chǎn)關(guān)鍵詞的媒體分布統(tǒng)計.地域關(guān)鍵詞:“合肥 蜀山區(qū) 瑤海區(qū) 廬陽區(qū) 高新區(qū) 濱湖區(qū) 政務區(qū)”.主題事件關(guān)鍵詞:“限購 限貸 購房 樓盤 戶型 房價 哄抬 哄搶 不動產(chǎn) 房產(chǎn) 房產(chǎn)調(diào)控 過戶費 房產(chǎn)證 房產(chǎn)面積 限價”. 根據(jù)主題事件關(guān)鍵詞進行規(guī)則性匹配分析,某條信息包含地域關(guān)鍵詞和主題事件關(guān)鍵詞,則表示該房地產(chǎn)在媒體中的輿情信息可餅狀圖形式呈現(xiàn)出來,如圖11.
圖11 2016年至今合肥房地產(chǎn)媒體類型圖
(2)基于用戶自定義字典及短語提取分析的字符云統(tǒng)計分析圖.如圖12所示,它呈現(xiàn)的是合肥房地產(chǎn)字符云圖分布,字符大小與關(guān)注度呈正相關(guān).從圖中可以清晰看出,在此期間,合肥房價、房價漲幅等成為一時熱點,媒體對合肥市房價問題關(guān)注度最高,房價攀升的節(jié)奏也非???,社會的關(guān)注度也較高,從而體現(xiàn)了房地產(chǎn)行業(yè)在“大數(shù)據(jù)云計算”的基礎上利用互聯(lián)網(wǎng)在數(shù)據(jù)處理以及自然語言分析、決策模型方面的優(yōu)勢,幫助房地產(chǎn)業(yè)進行決策分析.
圖12 2016.2-2017.4字符云圖統(tǒng)計[8]
除此之外,數(shù)據(jù)倉庫模型還可基于中文分詞以及關(guān)鍵詞提取技術(shù),獲取合肥市房地產(chǎn)相關(guān)輿情案例展示的熱點詞頻圖、線型分析圖等形象直觀的可視化圖形.
綜上而言,基于大數(shù)據(jù)的合肥市房地產(chǎn)輿情研究平臺要充分認識到大數(shù)據(jù)的重要性,從數(shù)據(jù)的提取到存儲體系的建設,再到房地產(chǎn)輿情監(jiān)測方面不斷探索,這樣才能發(fā)揮大數(shù)據(jù)在房地產(chǎn)業(yè)的巨大潛力.引進大數(shù)據(jù)處理和運用的專業(yè)方法和工具,建設專業(yè)的大數(shù)據(jù)應用人才隊伍,建立具有前瞻性的業(yè)務分析模型,具備把握、預測市場和用戶行為的能力,才能將數(shù)據(jù)挖掘與分析更有價值地運用到業(yè)務經(jīng)營和管理過程中.