■ 方從剛/黃志勤/武椿江/辜寄蓉/蘭井志
(1.北京大學(xué),北京 100871;2.中國(guó)國(guó)土資源經(jīng)濟(jì)研究院,北京 101149;3.成都市國(guó)土資源信息中心,四川成都 610023;4.四川省國(guó)土資源廳信息中心,成都 610072;5.四川師范大學(xué)地理與資源科學(xué)學(xué)院,成都 610101)
基于不動(dòng)產(chǎn)統(tǒng)一登記數(shù)據(jù)的不動(dòng)產(chǎn)大數(shù)據(jù)框架初探
■ 方從剛1,2,3/黃志勤4/武椿江5/辜寄蓉5/蘭井志2
(1.北京大學(xué),北京 100871;2.中國(guó)國(guó)土資源經(jīng)濟(jì)研究院,北京 101149;3.成都市國(guó)土資源信息中心,四川成都 610023;4.四川省國(guó)土資源廳信息中心,成都 610072;5.四川師范大學(xué)地理與資源科學(xué)學(xué)院,成都 610101)
不動(dòng)產(chǎn)數(shù)據(jù)具有豐富的人、地、房相關(guān)信息,但缺乏社會(huì)經(jīng)濟(jì)等相關(guān)信息?;ヂ?lián)網(wǎng)中豐富的社會(huì)、經(jīng)濟(jì)、生態(tài)信息,與不動(dòng)產(chǎn)數(shù)據(jù)相結(jié)合,將更好地拓展不動(dòng)產(chǎn)數(shù)據(jù)的應(yīng)用范圍,為國(guó)土資源部門的數(shù)據(jù)管理、分析與挖掘等工作提供極大助力。不動(dòng)產(chǎn)大數(shù)據(jù)建立可以有力地補(bǔ)充國(guó)土行業(yè)數(shù)據(jù)在社會(huì)、經(jīng)濟(jì)方面的短板,與不動(dòng)產(chǎn)數(shù)據(jù)本身形成有機(jī)體,成為國(guó)土資源管理的核心數(shù)據(jù)集。同時(shí),以大數(shù)據(jù)技術(shù)為支撐的數(shù)據(jù)獲取、融合、挖掘技術(shù),可以更好地發(fā)揮不動(dòng)產(chǎn)數(shù)據(jù)和大數(shù)據(jù)的價(jià)值,提升數(shù)據(jù)資源的可利用性。
不動(dòng)產(chǎn)統(tǒng)一登記;不動(dòng)產(chǎn)大數(shù)據(jù);數(shù)據(jù)框架;大數(shù)據(jù)技術(shù)
Abstract:Real estate data is rich in people, land and room related information, but it lacks of socio-economic and other related information.The combination of rich social, economic, ecological information and real estate data from the Internet will better expand the application of real estate data and provide great assistance for the data management, analysis and excavation for the land and resources departments.The establishment of large real estate data can effectively complement the shortage of land data in the social and economic aspects, and real estate data itself can form an organism, then a land and resources management core data can be set. At the same time, big data technology can support the data acquisition, integration, mining technology, which can better play the value of real estate data and big data to enhance the availability of data resources.
Key words:real estate uni fi ed registration; real estate big data; data frame; big data technology
大數(shù)據(jù)是以容量大、類型多、存取速度快、應(yīng)用價(jià)值高為主要特征的數(shù)據(jù)集合[1]。隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,人類逐漸步入大數(shù)據(jù)時(shí)代,數(shù)據(jù)資源正和土地、勞動(dòng)力、資本等生產(chǎn)要素一樣,成為促進(jìn)經(jīng)濟(jì)增長(zhǎng)和社會(huì)發(fā)展的基本要素。隨著信息技術(shù)的迅猛發(fā)展和社會(huì)經(jīng)濟(jì)水平的不斷提高,在我國(guó)社會(huì)生活生產(chǎn)實(shí)踐中沉淀了大量數(shù)據(jù),科學(xué)合理地利用好這些寶貴的數(shù)據(jù)資源對(duì)我國(guó)經(jīng)濟(jì)社會(huì)持續(xù)健康發(fā)展具有重要意義。
大數(shù)據(jù)在當(dāng)今社會(huì)的重要地位顯而易見,但不是“萬能”的。大數(shù)據(jù)多為非結(jié)構(gòu)化數(shù)據(jù),在數(shù)據(jù)采集、存儲(chǔ)、挖掘等環(huán)節(jié)具有較高的技術(shù)難度。大數(shù)據(jù)本身價(jià)值密度低,為發(fā)掘其中的有價(jià)值信息進(jìn)行大規(guī)模存儲(chǔ)和計(jì)算的成本有時(shí)候高于其所帶來的效益。一種可行的模式是將高價(jià)值密度的專業(yè)化數(shù)據(jù)與大數(shù)據(jù)相結(jié)合,以提高數(shù)據(jù)處理效率,降低實(shí)施成本。
我國(guó)2015年3月1日正式發(fā)布《不動(dòng)產(chǎn)登記暫行條例》,標(biāo)志著不動(dòng)產(chǎn)統(tǒng)一登記制度的正式建立。不動(dòng)產(chǎn)登記形成的數(shù)據(jù)庫(kù)包含豐富的人、地、房的相關(guān)信息,是一種專業(yè)化很強(qiáng)的高價(jià)值結(jié)構(gòu)數(shù)據(jù)。然而不動(dòng)產(chǎn)登記數(shù)據(jù)不能夠提供相關(guān)的社會(huì)經(jīng)濟(jì)屬性,導(dǎo)致其不能充分發(fā)揮宏觀分析與決策支持能力,限制了不動(dòng)產(chǎn)登記數(shù)據(jù)的深度挖掘。大數(shù)據(jù)來源廣泛,覆蓋社會(huì)經(jīng)濟(jì)生活的方方面面,必然成為不動(dòng)產(chǎn)登記數(shù)據(jù)的有效補(bǔ)充,二者的結(jié)合能夠?qū)崿F(xiàn)結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢(shì)互補(bǔ),賦予不動(dòng)產(chǎn)數(shù)據(jù)相應(yīng)的社會(huì)經(jīng)濟(jì)屬性,進(jìn)一步擴(kuò)展數(shù)據(jù)的厚度和廣度,促進(jìn)不動(dòng)產(chǎn)大數(shù)據(jù)應(yīng)用發(fā)展,為國(guó)土資源部門數(shù)據(jù)管理、分析與挖掘等工作提供極大助力。
國(guó)土資源數(shù)據(jù)作為基礎(chǔ)國(guó)情信息,在國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展中發(fā)揮著極為重要的作用。國(guó)土資源部門通過國(guó)土資源調(diào)查、監(jiān)測(cè)、評(píng)價(jià)和管理工作,產(chǎn)生和積累了海量的基礎(chǔ)地理、土地、地質(zhì)礦產(chǎn)、地質(zhì)環(huán)境與地質(zhì)災(zāi)害防治和海洋等數(shù)據(jù)[2]。國(guó)土資源的管理離不開數(shù)據(jù)的支撐,國(guó)土資源部門開展實(shí)施的國(guó)土資源信息化建設(shè)通過對(duì)存在于不同業(yè)務(wù)部門的國(guó)土資源數(shù)據(jù)整合梳理,建立了“一張圖”核心數(shù)據(jù)庫(kù),涵蓋國(guó)土資源基礎(chǔ)、業(yè)務(wù)、專業(yè)數(shù)據(jù)[3],隨著國(guó)土資源信息化工作的不斷推進(jìn),對(duì)挖掘國(guó)土資源數(shù)據(jù)中的潛在價(jià)值,提高國(guó)土資源部門管理能力和服務(wù)效率提出了新要求,應(yīng)用大數(shù)據(jù)技術(shù)勢(shì)在必行,而大數(shù)據(jù)理念和技術(shù)的不斷發(fā)展也使得其在國(guó)土資源系統(tǒng)應(yīng)用成為可能。
(1)國(guó)土資源信息化建設(shè)“一張圖”核心數(shù)據(jù)庫(kù)是國(guó)土資源大數(shù)據(jù)應(yīng)用的主要支撐。現(xiàn)階段開展的國(guó)土資源大數(shù)據(jù)應(yīng)用都基于“一張圖”核心數(shù)據(jù)庫(kù),從數(shù)據(jù)庫(kù)中獲取門類齊全、覆蓋全面的各類數(shù)據(jù),在此基礎(chǔ)上開展分析挖掘。江蘇省國(guó)土資源系統(tǒng)將互聯(lián)網(wǎng)+、大數(shù)據(jù)、國(guó)土云理念技術(shù)與“一張圖”工程深度融合開展“慧眼守土”工程,給國(guó)土資源信息化工作帶來了實(shí)質(zhì)性轉(zhuǎn)變[4];武漢市國(guó)土資源和規(guī)劃局以“一張圖”和政府辦公、綜合監(jiān)管、公眾服務(wù)、地理云服務(wù)平臺(tái)為基礎(chǔ),從整合硬件、網(wǎng)絡(luò)、數(shù)據(jù)資源等方面入手,在多維度耕地演變分析,建設(shè)用地動(dòng)態(tài)監(jiān)管,以地、稅信息整合為基礎(chǔ)的“以地控稅,以稅節(jié)地”,社會(huì)管理創(chuàng)新等四個(gè)方面開展大數(shù)據(jù)應(yīng)用[5]。
(2)國(guó)土資源部門進(jìn)一步構(gòu)建數(shù)據(jù)資源體系。一方面,國(guó)土資源數(shù)據(jù)本身既有結(jié)構(gòu)化數(shù)據(jù),又有非結(jié)構(gòu)化數(shù)據(jù),需要對(duì)數(shù)據(jù)進(jìn)行整合,保證其完整性、一致性。另一方面,高質(zhì)量的數(shù)據(jù)不應(yīng)該只是數(shù)量大,而且應(yīng)該全,對(duì)涵蓋不同維度的數(shù)據(jù)進(jìn)行分析才能透過數(shù)據(jù)本身的復(fù)雜關(guān)聯(lián)關(guān)系全面認(rèn)識(shí)事物規(guī)律。國(guó)土資源數(shù)據(jù)需要從互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等渠道收集和保留與國(guó)土資源有關(guān)的社會(huì)經(jīng)濟(jì)屬性數(shù)據(jù),對(duì)這些分散、結(jié)構(gòu)不一、類型多樣的數(shù)據(jù)進(jìn)行清洗整合,形成可用的數(shù)據(jù)庫(kù)和數(shù)據(jù)集。
目前,我國(guó)國(guó)土資源大數(shù)據(jù)應(yīng)用剛剛起步,尚存在數(shù)據(jù)整合、應(yīng)用落后等不足:
(1)國(guó)土資源數(shù)據(jù)與社會(huì)經(jīng)濟(jì)屬性數(shù)據(jù)整合不夠。國(guó)土資源數(shù)據(jù)資源體系建設(shè)剛剛起步,現(xiàn)階段仍以自身內(nèi)部積累下來的數(shù)據(jù)為主,對(duì)來自互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等其他渠道的社會(huì)經(jīng)濟(jì)屬性數(shù)據(jù)進(jìn)行清洗整合的難度較大。同時(shí),關(guān)于國(guó)土資源數(shù)據(jù)應(yīng)該同哪些社會(huì)經(jīng)濟(jì)屬性數(shù)據(jù)結(jié)合才能充分發(fā)揮國(guó)土資源數(shù)據(jù)潛在價(jià)值的問題尚未梳理清楚,阻礙了國(guó)土資源數(shù)據(jù)與社會(huì)經(jīng)濟(jì)屬性數(shù)據(jù)的結(jié)合。
(2)國(guó)土資源大數(shù)據(jù)應(yīng)用遠(yuǎn)落后于其他行業(yè)。相較其他行業(yè)和部門而言,國(guó)土資源部門坐擁海量國(guó)土資源數(shù)據(jù),國(guó)土資源大數(shù)據(jù)應(yīng)用發(fā)展與其擁有的數(shù)據(jù)量不相匹配。以城市規(guī)劃行業(yè)為例,該研究領(lǐng)域的專家學(xué)者提出很多基于大數(shù)據(jù)的城市規(guī)劃理論、方法,涵蓋城市規(guī)劃各個(gè)方面(綠道設(shè)計(jì)[6]、職住分離[7]、城市活動(dòng)空間分布[8]、用地功能區(qū)分[9]等),并且成功應(yīng)用到具體工作實(shí)際當(dāng)中。而關(guān)于國(guó)土資源大數(shù)據(jù)應(yīng)用的理論、技術(shù)研究很少,國(guó)土資源大數(shù)據(jù)主要是在國(guó)土資源部門實(shí)踐推行,其應(yīng)用的廣度和深度有限。
不動(dòng)產(chǎn)登記數(shù)據(jù)是在國(guó)土資源部門統(tǒng)一監(jiān)督指導(dǎo)下進(jìn)行全國(guó)土地、房屋、草原、林地、海域等不動(dòng)產(chǎn)登記所形成的數(shù)據(jù),記錄了不動(dòng)產(chǎn)權(quán)利人、不動(dòng)產(chǎn)位置、狀態(tài)、編號(hào)等詳細(xì)信息,實(shí)現(xiàn)了個(gè)人信息與房、地、林等不動(dòng)產(chǎn)信息的精準(zhǔn)關(guān)聯(lián)。合理有效地挖掘分析不動(dòng)產(chǎn)數(shù)據(jù),可以揭示出其內(nèi)涵的人、土地、房地產(chǎn)之間的復(fù)雜關(guān)系網(wǎng)絡(luò),為政府部門的土地供應(yīng)、房地產(chǎn)管理等工作提供決策支持,是一種高價(jià)值的國(guó)土資源數(shù)據(jù)類型。但是不動(dòng)產(chǎn)登記數(shù)據(jù)作為國(guó)土資源部門數(shù)據(jù)的一種,其關(guān)注的是不動(dòng)產(chǎn)領(lǐng)域的權(quán)屬變更信息,登記數(shù)據(jù)較少涉及到社會(huì)經(jīng)濟(jì)屬性,這就降低了不動(dòng)產(chǎn)登記數(shù)據(jù)深度挖掘的潛力,無法挖掘人、土地市場(chǎng)、房地產(chǎn)場(chǎng)等社會(huì)經(jīng)濟(jì)領(lǐng)域的相互關(guān)系,不利于不動(dòng)產(chǎn)數(shù)據(jù)參與重要的社會(huì)經(jīng)濟(jì)生活領(lǐng)域宏觀決策。
要充分發(fā)掘不動(dòng)產(chǎn)登記數(shù)據(jù)的內(nèi)在價(jià)值必須結(jié)合不動(dòng)產(chǎn)相關(guān)的社會(huì)經(jīng)濟(jì)大數(shù)據(jù)?,F(xiàn)代社會(huì)經(jīng)濟(jì)活動(dòng)高度依賴互聯(lián)網(wǎng),人類的相關(guān)活動(dòng)在互聯(lián)網(wǎng)上留下了大量的痕跡數(shù)據(jù),這些數(shù)據(jù)正在以極快的速度增長(zhǎng)著,并且是開放免費(fèi)的。同時(shí),一些開放數(shù)據(jù)組織機(jī)構(gòu)出于促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展,幫助研究團(tuán)體和個(gè)人獲得數(shù)據(jù)的目的,向社會(huì)免費(fèi)公開所收集的數(shù)據(jù)。采用一定的技術(shù)手段獲取這些帶有社會(huì)經(jīng)濟(jì)屬性的數(shù)據(jù),將它們與不動(dòng)產(chǎn)數(shù)據(jù)相結(jié)合,構(gòu)建不動(dòng)產(chǎn)大數(shù)據(jù)加以分析、挖掘,在大大節(jié)約成本的同時(shí),也充分釋放出不動(dòng)產(chǎn)數(shù)據(jù)內(nèi)在的經(jīng)濟(jì)、社會(huì)效益(圖1)。
不動(dòng)產(chǎn)登記數(shù)據(jù)和不動(dòng)產(chǎn)相關(guān)的互聯(lián)網(wǎng)社會(huì)經(jīng)濟(jì)數(shù)據(jù)在類型、結(jié)構(gòu)、來源等方面存在很大的差異。將結(jié)構(gòu)型不動(dòng)產(chǎn)登記數(shù)據(jù)與非結(jié)構(gòu)型的互聯(lián)網(wǎng)社會(huì)經(jīng)濟(jì)數(shù)據(jù)相結(jié)合,必須制定相應(yīng)的數(shù)據(jù)清洗方案,解決因業(yè)務(wù)口徑不同而產(chǎn)生的數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、類型不匹配、格式不一致、語義不一致等問題。通過互聯(lián)網(wǎng)和物聯(lián)網(wǎng)等方式獲取的數(shù)據(jù)本身還呈現(xiàn)出數(shù)據(jù)價(jià)值密度低等問題,只有通過開展信息的清洗與抽取、時(shí)空匹配、信息融合,才能將這些具有現(xiàn)勢(shì)性特性的數(shù)據(jù)與結(jié)構(gòu)化的不動(dòng)產(chǎn)登記數(shù)據(jù)相結(jié)合,實(shí)現(xiàn)國(guó)土資源大數(shù)據(jù)的實(shí)時(shí)接入、時(shí)空關(guān)聯(lián)和內(nèi)容融合,為后續(xù)的分析決策提供依據(jù)。在此基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘,從海量的數(shù)據(jù)中獲得不動(dòng)產(chǎn)登記大數(shù)據(jù)蘊(yùn)藏的人、土地市場(chǎng)、房地產(chǎn)市場(chǎng)等方面的知識(shí)與模式,將這些知識(shí)、模式提煉總結(jié),用來對(duì)國(guó)土資源部門工作進(jìn)行指導(dǎo)與支持。
對(duì)于互聯(lián)網(wǎng)數(shù)據(jù)的獲取,除了部分涉及數(shù)據(jù)提供者利益的數(shù)據(jù)需要購(gòu)買外,其余大部分都可以采用網(wǎng)絡(luò)爬蟲技術(shù)抓取數(shù)據(jù)源對(duì)應(yīng)的網(wǎng)絡(luò)資源,通過解析、清洗后得到所關(guān)注的數(shù)據(jù)信息。網(wǎng)絡(luò)爬蟲(Web Crawler),又稱為網(wǎng)絡(luò)蜘蛛(Web Spider)或Web 信息采集器,是一個(gè)自動(dòng)下載網(wǎng)頁(yè)的計(jì)算機(jī)程序或自動(dòng)化腳本,是搜索引擎的重要組成部分[10]。網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),大致可以分為以下幾種類型:通用網(wǎng)絡(luò)爬蟲(General Purpose Web Crawler)、主題網(wǎng)絡(luò)爬蟲(Topical Web Crawler)、深層網(wǎng)絡(luò)爬蟲(Deep Web Crawler)、增量式爬蟲(Incremental Web Crawler)[11]。網(wǎng)絡(luò)爬蟲一般都有URL管理模塊、頁(yè)面下載模塊、頁(yè)面內(nèi)容解析模塊賀網(wǎng)頁(yè)數(shù)據(jù)庫(kù)模塊,貫穿了從頁(yè)面抓取、目標(biāo)頁(yè)面鎖定及下載、頁(yè)面內(nèi)容信息抽取和存儲(chǔ)各個(gè)環(huán)節(jié)[12]。
圖1 不動(dòng)產(chǎn)大數(shù)據(jù)框架圖
本研究基于網(wǎng)絡(luò)爬蟲原理,采用Scarpy爬蟲框架,面向不動(dòng)產(chǎn)大數(shù)據(jù)對(duì)框架進(jìn)行優(yōu)化和完善,從而實(shí)現(xiàn)對(duì)特定網(wǎng)站進(jìn)行爬取、解析。Scrapy是一個(gè)為了爬取網(wǎng)站內(nèi)容,提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架??梢詰?yīng)用在包括數(shù)據(jù)挖掘、信息處理或存儲(chǔ)歷史數(shù)據(jù)等一系列的程序中,它實(shí)現(xiàn)了一般爬蟲的主要模塊。其最初是為了頁(yè)面抓取所設(shè)計(jì)的,也可以應(yīng)用于獲取API所返回的數(shù)據(jù)(例如 Amazon Associates Web Services ) 或者通用的網(wǎng)絡(luò)爬蟲,在國(guó)內(nèi)外應(yīng)用較廣。
中國(guó)計(jì)算機(jī)學(xué)會(huì)理事長(zhǎng)李國(guó)杰指出:大數(shù)據(jù)融合是大數(shù)據(jù)發(fā)展過程中一個(gè)重要的環(huán)節(jié),將影響到大數(shù)據(jù)價(jià)值的發(fā)揮[13]。融合在大數(shù)據(jù)時(shí)代具有非常重要的價(jià)值與意義。通過多源信息融合,有利于進(jìn)一步挖掘數(shù)據(jù)的價(jià)值,提升信息分析的作用;通過多源信息交叉印證,可以減少信息錯(cuò)誤與疏漏,防止決策失誤。大數(shù)據(jù)融合的重要性與必要性推動(dòng)數(shù)據(jù)融合研究領(lǐng)域出現(xiàn)了成熟的理論、方法。中國(guó)人民大學(xué)孟曉峰教授認(rèn)為當(dāng)前大數(shù)據(jù)融合的主要支撐技術(shù)有模式/本體對(duì)齊技術(shù)、實(shí)體鏈接技術(shù)、沖突解決技術(shù)、關(guān)系推演技術(shù)四種。模式/本體對(duì)齊技術(shù)用于應(yīng)對(duì)本體的易異構(gòu)性和數(shù)據(jù)源的異構(gòu)性;實(shí)體鏈接技術(shù)關(guān)鍵是實(shí)體識(shí)別,用于確定命名實(shí)體表象與真實(shí)實(shí)體之間的映射關(guān)系;沖突解決技術(shù)用于甄別所有沖突的值中的正確值;關(guān)系推演技術(shù)用于尋找關(guān)聯(lián)數(shù)據(jù)中的數(shù)據(jù)模式與自然語言中關(guān)系詞匯中的對(duì)應(yīng)關(guān)系[14]。北京大學(xué)信息管理學(xué)院化柏林研究員從理論、方法、技術(shù)及應(yīng)用四個(gè)層面談?wù)摿舜髷?shù)據(jù)環(huán)境下的多源信息融合問題,指出多源信息融合主要涉及數(shù)據(jù)唯一識(shí)別、數(shù)據(jù)記錄濾重、字段映射與互補(bǔ)、重名區(qū)分、別名識(shí)別、異構(gòu)數(shù)據(jù)加權(quán)等多個(gè)方面[15]。郭春霞在大數(shù)據(jù)環(huán)境下高校圖書館數(shù)據(jù)融合中認(rèn)為可融合的數(shù)據(jù)具有共性和互補(bǔ)性,在數(shù)據(jù)融合過程中應(yīng)該進(jìn)行數(shù)據(jù)拆分、記錄濾重等工作[16]。
本研究借鑒專家學(xué)者的研究成果,采用適當(dāng)?shù)姆椒?、技術(shù)將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),對(duì)融合的數(shù)據(jù)進(jìn)行去重、異常值剔除、屬性整理工作,方便后期的研究使用。
本研究所需數(shù)據(jù),一部分從不動(dòng)產(chǎn)數(shù)據(jù)庫(kù)直接獲取,一部分?jǐn)?shù)據(jù)將不動(dòng)產(chǎn)數(shù)據(jù)與大數(shù)據(jù)結(jié)合,或者不動(dòng)產(chǎn)與不動(dòng)產(chǎn)數(shù)據(jù)結(jié)合,其數(shù)據(jù)的整理流程如圖2所示。
數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程,涉及統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)等方法理論。合理運(yùn)用數(shù)據(jù)挖掘技術(shù),能夠高效精確地發(fā)現(xiàn)隱藏在不動(dòng)產(chǎn)登記大數(shù)據(jù)背后的特征規(guī)律,據(jù)此為決策者提供有價(jià)值的信息、知識(shí)[17]。
數(shù)據(jù)挖掘技術(shù)出現(xiàn)于20世紀(jì)80年代,它促成了數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD)產(chǎn)生。1995年在加拿大蒙特利爾召開了首屆KDD國(guó)際學(xué)術(shù)年會(huì),把數(shù)據(jù)挖掘技術(shù)分為工程領(lǐng)域的數(shù)據(jù)挖掘與科研領(lǐng)域的知識(shí)發(fā)現(xiàn)。此后每年都會(huì)召開類似的會(huì)議,且數(shù)量和規(guī)模逐漸增加,經(jīng)過十幾年的努力,數(shù)據(jù)挖掘技術(shù)研究已經(jīng)取得了豐碩的成果[18]。數(shù)據(jù)挖掘的算法主要有神經(jīng)網(wǎng)絡(luò)法、決策樹法、遺傳算法、粗糙集法、模糊集法和關(guān)聯(lián)規(guī)則法等,這些算法在研究人員的努力下仍在不斷改進(jìn)和完善[19]。
圖2 數(shù)據(jù)整理流程圖
數(shù)據(jù)挖掘技術(shù)是面向應(yīng)用的,隨著研究的深入,數(shù)據(jù)挖掘技術(shù)的應(yīng)用越來越廣泛,在金融業(yè)、零售業(yè)、生物信息、客戶關(guān)系管理、電子商務(wù)管理等領(lǐng)域發(fā)揮著重要的作用。在大數(shù)據(jù)環(huán)境背景下,數(shù)據(jù)挖掘作為發(fā)現(xiàn)數(shù)據(jù)價(jià)值的手段更是受到研究人員的重視:國(guó)內(nèi)外學(xué)者基于微博數(shù)據(jù)進(jìn)行了微博話題事件分析、微博情感分析、微博信息檢索與推薦、微博關(guān)系分析與挖掘方面、微博地理位置的研究,這些研究都是通過數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)的[20];李德仁深入分析了遙感大數(shù)據(jù)的挖掘過程、遙感大數(shù)據(jù)與廣義遙感大數(shù)據(jù)綜合信息挖掘,認(rèn)為遙感大數(shù)據(jù)不僅能用于挖掘地球各種尺度的變化規(guī)律,而且能用于發(fā)現(xiàn)未知的,甚至遙感不相關(guān)的知識(shí)[21];賀瑤、王文慶等為了實(shí)現(xiàn)高效率低成本的海量數(shù)據(jù)挖掘,提出了基于云計(jì)算的海量數(shù)據(jù)挖掘模型,該模型利用云計(jì)算的并行處理和海量存儲(chǔ)能力,數(shù)據(jù)挖掘的效率明顯高于傳統(tǒng)的數(shù)據(jù)挖掘,并且準(zhǔn)確性也有了一定的提高[22]。
不動(dòng)產(chǎn)大數(shù)據(jù)的建立可以有力地補(bǔ)充國(guó)土資源行業(yè)數(shù)據(jù)在社會(huì)、經(jīng)濟(jì)表現(xiàn)方面的短板,與不動(dòng)產(chǎn)數(shù)據(jù)本身形成有機(jī)體,成為國(guó)土資源管理的核心數(shù)據(jù)集。同時(shí),以大數(shù)據(jù)技術(shù)為支持的數(shù)據(jù)獲取、融合、挖掘技術(shù),可以更好地發(fā)揮不動(dòng)產(chǎn)數(shù)據(jù)和大數(shù)據(jù)的價(jià)值,提升數(shù)據(jù)資源的可利用性。
后期將以四川省不動(dòng)產(chǎn)統(tǒng)一登記數(shù)據(jù)為藍(lán)本,具體研究不動(dòng)產(chǎn)的哪些數(shù)據(jù)或數(shù)據(jù)產(chǎn)品,與大數(shù)據(jù)中的哪些數(shù)據(jù)融合,融合為何種數(shù)據(jù)產(chǎn)品,為哪些國(guó)土資源部門分析服務(wù),最終建立不動(dòng)產(chǎn)大數(shù)據(jù)集。
[1]甄峰,秦蕭,王波.大數(shù)據(jù)時(shí)代的人文地理研究與應(yīng)用實(shí)踐[J].人文地理,2014(3):1-6.
[2]嚴(yán)正偉.基于大數(shù)據(jù)技術(shù)的國(guó)土資源信息化應(yīng)用研究[J].信息化研究,2015(2):1-4.
[3]屈曉波,趙根.關(guān)于國(guó)土資源“一張圖”建設(shè)的思考[J].國(guó)土資源信息化,2013(4):12-15.
[4]葉東劍.大數(shù)據(jù)“慧眼守土”:淺析江蘇省鹽城市鹽都區(qū)國(guó)土資源信息化建設(shè)[J].中國(guó)土地,2016(7):38-39.
[5]李宗華,彭明軍,黃新.武漢市國(guó)土資源大數(shù)據(jù)應(yīng)用研究與實(shí)踐[J].國(guó)土資源信息化,2016(1):3-7.
[6]李方正,李婉儀,李雄.基于公交刷卡大數(shù)據(jù)分析的城市綠道規(guī)劃研究:以北京市為例[J].城市發(fā)展研究,2015(8):27-32.
[7]龍瀛,張宇,崔承印.利用公交刷卡數(shù)據(jù)分析北京職住關(guān)系和通勤出行[J].地理學(xué)報(bào),2012(10):1339-1352.
[8]王波,甄峰,張浩.基于簽到數(shù)據(jù)的城市活動(dòng)時(shí)空間動(dòng)態(tài)變化及區(qū)劃研究[J].地理科學(xué),2015(2):151-160.
[9]梁軍輝,林堅(jiān),杜洋.大數(shù)據(jù)條件下城市用地類型辨識(shí)研究:基于出租車GPS數(shù)據(jù)的動(dòng)態(tài)感知[J].上海國(guó)土資源,2016(1):28-32.
[10]孫立偉,何國(guó)輝,吳禮發(fā).網(wǎng)絡(luò)爬蟲技術(shù)的研究[J].電腦知識(shí)與技術(shù),2010(15):4112-4115.
[11]于成龍,于洪波.網(wǎng)絡(luò)爬蟲技術(shù)研究[J].東莞理工學(xué)院學(xué)報(bào),2011(3):25-29.
[12]肖毅,張林,聶笑一.基于WEB挖掘的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2013(9):60-63.
[13]李國(guó)杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域:大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國(guó)科學(xué)院院刊,2012(6):647-657.
[14]孟小峰,杜治娟.大數(shù)據(jù)融合研究:問題與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2016(2):231-246.
[15]化柏林,李廣建.大數(shù)據(jù)環(huán)境下多源信息融合的理論與應(yīng)用探討[J].圖書情報(bào)工作,2015(16):5-10.
[16]郭春霞.大數(shù)據(jù)環(huán)境下高校圖書館非結(jié)構(gòu)化數(shù)據(jù)融合分析[J].圖書館學(xué)研究,2015(5):30-34.
[17]邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國(guó)水利水電出版社,2003.
[18]王雅軒,頊聰.數(shù)據(jù)挖掘技術(shù)的綜述[J].電子技術(shù)與軟件工程,2015(8):204-205.
[19]王光宏,蔣平.數(shù)據(jù)挖掘綜述[J].同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版),2004(2):246-252.
[20]丁兆云,賈焰,周斌.微博數(shù)據(jù)挖掘研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2014(4):691-706.
[21]李德仁,張良培,夏桂松.遙感大數(shù)據(jù)自動(dòng)分析與數(shù)據(jù)挖掘[J].測(cè)繪學(xué)報(bào),2014(12):1211-1216.
[22]賀瑤,王文慶,薛飛.基于云計(jì)算的海量數(shù)據(jù)挖掘研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(2):69-72.
A Preliminary Study on Big Data Framework Based on Uniform Registration Data of Real Estate
FANG Conggang1,2,3, HUANG Zhiqin4, WU Chunjiang5, GU Jirong5, LAN Jingzhi2
(1. Peking University, Beijing 100871, China; 2. Chinese Academy of Land and Resource Economics, Beijing 101149; 3. Chengdu Land and Resources Information Center, Chengdu Sichuan 610023, China; 4. Information Center, Sichuan Provincial Land and Resources Department,Chengdu 610072, China; 5. The Faculty Geography Resource Science, Sichuan Normal University, Chengdu 610101, China)
F061.6;F062.1;F062.5
A
1672-6995(2017)09-0030-05
2017-04-07;
2017-05-02
四川省國(guó)土資源廳科技項(xiàng)目“基于大數(shù)據(jù)技術(shù)的不動(dòng)產(chǎn)登記數(shù)據(jù)信息挖掘與決策支持機(jī)制研究”(201707)
方從剛(1983—),男,四川省瀘州市江陽(yáng)區(qū)人,成都市國(guó)土資源信息中心高級(jí)工程師,理學(xué)博士,主要研究方向:數(shù)字國(guó)土與地理信息工程。
中國(guó)國(guó)土資源經(jīng)濟(jì)2017年9期