趙肄江,周曉光.中南大學(xué)地球科學(xué)與信息物理學(xué)院,湖南長沙40083;2.湖南科技大學(xué)知識處理與網(wǎng)絡(luò)化制造湖南省普通高校重點(diǎn)實(shí)驗(yàn)室,湖南湘潭420
地理信息志愿者信譽(yù)度評估的版本相似度模型
——以面目標(biāo)為例
趙肄江1,2,周曉光1
1.中南大學(xué)地球科學(xué)與信息物理學(xué)院,湖南長沙410083;2.湖南科技大學(xué)知識處理與網(wǎng)絡(luò)化制造湖南省普通高校重點(diǎn)實(shí)驗(yàn)室,湖南湘潭411201
針對自發(fā)地理信息中存在大量惡意、虛假、低質(zhì)量數(shù)據(jù),提出了一種基于版本相似度的VGI志愿者信譽(yù)度計(jì)算模型。該模型將每個(gè)志愿者對某個(gè)地理空間目標(biāo)的一次編輯結(jié)果定義為一個(gè)版本,當(dāng)其他用戶編輯該目標(biāo)版本時(shí),通過計(jì)算版本相似度來獲得其他用戶對該志愿者這個(gè)目標(biāo)版本的支持度;然后通過計(jì)算其他貢獻(xiàn)者對某志愿者所貢獻(xiàn)的每個(gè)目標(biāo)的支持度,對所有目標(biāo)的支持度進(jìn)行加權(quán)平均獲得該志愿者的綜合信譽(yù)度。其中版本相似度綜合目標(biāo)空間和屬性相似性的主要因素進(jìn)行加權(quán)計(jì)算。然后以面目標(biāo)為例闡述了本文志愿者信譽(yù)度計(jì)算過程。為了驗(yàn)證本文信譽(yù)度計(jì)算模型的合理性,筆者采用德國柏林Open-StreetMap數(shù)據(jù)進(jìn)行試驗(yàn),試驗(yàn)表明通過本文模型計(jì)算獲得的用戶信譽(yù)度與其貢獻(xiàn)的要素質(zhì)量總體上正相關(guān)。
自發(fā)地理信息;信譽(yù)度計(jì)算模型;版本相似度;OpenStreetMap
自發(fā)地理信息(volunteered geographic information,VGI)或眾源地理信息(crowd-sourcing geographic information)[1]具有覆蓋范圍廣、免費(fèi)共享、準(zhǔn)實(shí)時(shí)等特點(diǎn)[2-3],正迅速成為專業(yè)地理信息的重要補(bǔ)充[1-2,4]。目前已在基于網(wǎng)絡(luò)的地理信息服務(wù)、應(yīng)急救援等領(lǐng)域得到廣泛研究和應(yīng)用[58]。由于自發(fā)地理信息是由大眾志愿者自發(fā)標(biāo)報(bào),其中存在大量惡意、虛假、低質(zhì)量數(shù)據(jù),與傳統(tǒng)專業(yè)人員獲取數(shù)據(jù)相比,其可信度具有諸多不確定性,需進(jìn)行可信性評價(jià)后方可放心使用[3,9]。但目前這方面的研究工作還剛剛起步,研究成果主要包括定性分析和定量計(jì)算兩大類。
在定性分析方面,文獻(xiàn)[10]提出了采用用戶經(jīng)驗(yàn)、本地知識、要素來源等因素評價(jià)自發(fā)數(shù)據(jù)質(zhì)量的概念模型crowd quality;文獻(xiàn)[3]深入分析了確保VGI數(shù)據(jù)質(zhì)量的3種途徑:自發(fā)方法(crowd-sourcing approach)、社會方法(social approach)及地理方法(geographic approach);另外還有信息信任(informational trust)概念等。上述定性分析研究成果對VGI數(shù)據(jù)質(zhì)量控制與可信性度量具有重要參考價(jià)值,但是由于缺少對影響因素的定量化計(jì)算方法,不能直接用于VGI數(shù)據(jù)質(zhì)量的自動檢查與評價(jià)。
在VGI數(shù)據(jù)質(zhì)量定量評價(jià)方面的主要成果又可分為將VGI數(shù)據(jù)與已有專業(yè)數(shù)據(jù)比較評價(jià)和通過信譽(yù)模型評價(jià)兩類。在與已有專業(yè)數(shù)據(jù)庫比較評價(jià)方面,多位學(xué)者對感興趣區(qū)域的VGI數(shù)據(jù)與專業(yè)數(shù)據(jù)進(jìn)行了對比分析[11-12],通過對比分析,學(xué)者們普遍認(rèn)為在歐洲城市區(qū)域自發(fā)數(shù)據(jù)的平均位置精度優(yōu)于7m,現(xiàn)勢性與豐富程度甚至超過專業(yè)數(shù)據(jù),但VGI存在嚴(yán)重的不完整性和各地區(qū)不均勻等問題。由于這類方法需要高精度專業(yè)數(shù)據(jù)集,難以在VGI數(shù)據(jù)質(zhì)量評價(jià)中普遍應(yīng)用。
使用信譽(yù)模型評價(jià)則不需要高精度專業(yè)數(shù)據(jù)[13],通過貢獻(xiàn)者信譽(yù)等因素直接計(jì)算空間對象可信度。目前研究成果主要包括:文獻(xiàn)[14]提出一種VGI信任(或信譽(yù))評價(jià)模型,該模型結(jié)合地理距離和社會距離,采用用戶評分機(jī)制來評價(jià)自發(fā)信息信任度;文獻(xiàn)[13]提出了從版本數(shù)、用戶數(shù)、確認(rèn)數(shù)、標(biāo)簽修正、回滾(rollback)5個(gè)維度評估自發(fā)信息信任度的方法,該模型雖可作為自發(fā)地理信息質(zhì)量評價(jià)的一種手段,但用戶(志愿者)信譽(yù)是影響VGI數(shù)據(jù)質(zhì)量的重要因素,該模型尚未考慮用戶信譽(yù)的評價(jià)機(jī)制,因此評價(jià)效果值得商榷,且其要求評價(jià)對象有6個(gè)以上版本方可評價(jià),因此其評價(jià)對象的覆蓋面較小。
在VGI環(huán)境中,如OpenStreetMap(OSM)中很多目標(biāo)存在多個(gè)版本,筆者認(rèn)為志愿者編輯修改一個(gè)系統(tǒng)中已存在目標(biāo)的原因主要包括兩種情況:①對之前用戶編輯目標(biāo)的檢查與修正(目標(biāo)修正);②目標(biāo)本身發(fā)生了變化(目標(biāo)變化)。一般認(rèn)為,志愿者地理信息環(huán)境中的目標(biāo)具有相對穩(wěn)定性,在短期(如1個(gè)月、3個(gè)月甚至半年內(nèi))變化的可能性低。如圖1為OSM提供數(shù)據(jù)中id為4 839 528的面目標(biāo)的3個(gè)版本A1、A2和A3,貢獻(xiàn)者分別為用戶1、用戶2和用戶3,都將目標(biāo)標(biāo)注為游泳池,3個(gè)版本形成時(shí)間分別是2011年1月15日、1月18日和3月17日,3次編輯發(fā)生在大約兩個(gè)月內(nèi),該目標(biāo)本身發(fā)生變化的可能性非常小,從圖中可以看出,經(jīng)歷了3次編輯后,目標(biāo)的細(xì)節(jié)更清晰,質(zhì)量有所提高。從上述情況可以看出,在VGI環(huán)境中,對同一目標(biāo)同一狀態(tài)存在多次編輯修正的版本,而且修正程度體現(xiàn)了對前述貢獻(xiàn)的肯定程度,因而本文利用這種修正評價(jià)用戶信譽(yù)。
圖1 面目標(biāo)各版本之間的比較(陰影表示重疊部分)Fig.1 Comparison of versions of polygon object(overlapping parts are gray)
總之,自發(fā)地理信息信譽(yù)度量方面的研究工作還方興未艾,目前尚未見到志愿者信譽(yù)度計(jì)算方面研究成果,筆者認(rèn)為可以借鑒電子商務(wù)領(lǐng)域商家信譽(yù)度評價(jià)思想來評價(jià)志愿者地理信息信譽(yù)度量。本文在仔細(xì)分析志愿者編輯VGI數(shù)據(jù)過程后發(fā)現(xiàn),在目標(biāo)沒有沒有發(fā)生變化的情況下,后續(xù)用戶對前一版本的修改實(shí)質(zhì)上對其進(jìn)行了間接評價(jià)。在此基礎(chǔ)上提出了一種基于版本相似度的地理信息志愿者信譽(yù)度計(jì)算模型,該模型無需用戶對其他志愿者打分,直接根據(jù)志愿者編輯VGI數(shù)據(jù)間的版本相似度來計(jì)算志愿者信譽(yù)度。最后采用OSM中的Berlin市歷史數(shù)據(jù)對志愿者信譽(yù)計(jì)算模型進(jìn)行試驗(yàn)驗(yàn)證。
多位學(xué)者都已經(jīng)認(rèn)識到用戶(志愿者)信譽(yù)是影響VGI數(shù)據(jù)質(zhì)量的重要因素,但目前缺少志愿者信譽(yù)度計(jì)算的研究成果。為了探索用戶信譽(yù)的定量計(jì)算方法,筆者將在志愿者地理信息系統(tǒng)與電子商務(wù)系統(tǒng)進(jìn)行簡單類比。因此本節(jié)重點(diǎn)分析了同一目標(biāo)多個(gè)版本隱含的后一用戶對之前版本用戶的貢獻(xiàn)評價(jià),在此基礎(chǔ)上提出了版本相似度的概念,闡述了本文基于版本相似度的用戶信譽(yù)計(jì)算策略。
2.1 版本相似度的引入
在自發(fā)地理信息環(huán)境里,當(dāng)某用戶發(fā)現(xiàn)其他志愿者貢獻(xiàn)的某地圖要素存在錯誤或者不精確時(shí),該用戶往往通過編輯修改、刪除、重建等操作對該空間對象進(jìn)行修正。
如圖1中,用戶1新建了一個(gè)空間面目標(biāo)A1,設(shè)為A目標(biāo)的版本1;用戶2認(rèn)為A1不準(zhǔn)確,在A1的基礎(chǔ)上進(jìn)行編輯修改得到A2,設(shè)為版本2;用戶3認(rèn)為A2仍不夠準(zhǔn)確,在A2的基礎(chǔ)上編輯修改得到A3,設(shè)為版本3。將A1、A2、A3疊加,從A1∩A2、A2∩A3、A1∩A3,和A1、A2、A3的形狀中可以看出,該編輯修改的結(jié)果本身隱含了用戶2對用戶1的評價(jià)、用戶3對用戶2和用戶1的評價(jià)。如A1∩A2的面積較A2∩A3的占面目標(biāo)并集的面積比例小,A1與A2的形狀差異較A2與A3大,因此一般認(rèn)為用戶2對用戶1的支持度小于用戶3對用戶2的支持度。也就是說用戶3對用戶2的貢獻(xiàn)評價(jià)較高,用戶2對用戶1的貢獻(xiàn)評價(jià)較低。從上述分析可看出,A1、A2、A33個(gè)版本的相似程度中隱含了參與編輯的后繼用戶對之前用戶的評價(jià)。該評價(jià)表現(xiàn)為對之前目標(biāo)版本的修改,即后繼用戶對之前版本修改越小,說明該用戶對之前版本編輯用戶的支持度越高;反之亦然。為了更好地度量圖1中自發(fā)地理空間對象編輯過程中的隱含的用戶評價(jià),將版本間的相似程度定義為版本相似度。
版本相似度為地理空間對象任意兩個(gè)版本之間的相似程度,可通過版本空間相似度和版本屬性相似度進(jìn)行度量??臻g相似度指不同版本間的空間特征的相似程度,不同類型的對象(點(diǎn)、線、面)的空間相似度因子不同,其影響因素主要包括位置、形狀、大小等。屬性相似度指不同版本間屬性特征的相似程度,包括名稱、類型等語義相似性。
2.2 版本相似度的計(jì)算
假設(shè)A為自發(fā)地理信息環(huán)境下的某空間對象,用戶ui的編輯ei:vi-1→vi為對A的第i次編輯,其中i>0,用戶uj編輯A生成后續(xù)版本vj(0<i<j≤n),根據(jù)版本相似度的定義,對象A的版本vj與vi之間的版本相似度可以采用式(1)進(jìn)行計(jì)算
式(1)中的VSS(vi,vj)和VAS(vi,vj)分別表示vi和vj的版本空間相似度和版本屬性相似度,w∈[0,1]為二者對目標(biāo)版本相似度的影響權(quán)值。版本空間相似度和版本屬性相似度分別用式(2)和式(3)計(jì)算,均采用加權(quán)平均法,其中SSk(vi,vj)∈[0,1]表示空間對象A的vi和vj兩個(gè)版本的第k個(gè)空間因素的相似度(1≤k≤K,K表示參與空間相似度評價(jià)因素的數(shù)量),由于本文主要針對單個(gè)目標(biāo)的相似度計(jì)算,所以不包含拓?fù)涞瓤臻g信息,僅從幾何相似度考慮空間相似度,不同類型的對象(點(diǎn)、線、面)的空間相似度因子計(jì)算方式不同,包括位置、形狀、大小等;ASl(vi,vj)∈[0,1]表示空間對象A的vi與vj兩個(gè)版本之間的第l個(gè)屬性因素的相似度(1≤l≤L,L表示參與屬性相似度評價(jià)因素的數(shù)量),屬性特征主要包括名稱、類型等等語義特征;wk和wl分別表示版本間各因素空間相似度和屬性相似度的權(quán)值。
由于VGI中屬性相似度涉及不同國家、地區(qū)的語言和語義屬性,其相似度難以計(jì)算,本文暫不考慮屬性相似問題。VGI中目標(biāo)空間類型包括點(diǎn)、線和面,由于面目標(biāo)在VGI中占有重要比重,且在其相似度計(jì)算方面的研究成果豐富,本文先以面目標(biāo)的版本相似度為例說明版本相似度的計(jì)算方法。近年來,多位學(xué)者從面目標(biāo)大小、位置、形狀等方面計(jì)算其相似度[15-22]。其中文獻(xiàn)[21—22]采用基于旋轉(zhuǎn)函數(shù)距離的方法計(jì)算面目標(biāo)相似度,由于該方法直接采用目標(biāo)邊界形狀點(diǎn)來進(jìn)行計(jì)算,能較好區(qū)分面目標(biāo)形狀的細(xì)節(jié)及旋轉(zhuǎn)等變化情況,更適合本文應(yīng)用需求,所以本文選取旋轉(zhuǎn)函數(shù)距離度量面目標(biāo)的形狀相似度。
基于旋轉(zhuǎn)函數(shù)的面目標(biāo)形狀描述方法如圖2所示,設(shè)p0、p1、…、pn為閉合多邊形A的頂點(diǎn),取某一頂點(diǎn)p0為起始點(diǎn),θ1表示起始邊p0p1的方位角,ωk(1≤k≤n)表示點(diǎn)pk的旋轉(zhuǎn)角,多邊形A的旋轉(zhuǎn)角度函數(shù)表示為Θ(l),其中x軸表示點(diǎn)p0沿著多邊形周長到多邊形上個(gè)點(diǎn)pk的歸一化距離軸表示各點(diǎn)沿著周邊的轉(zhuǎn)角(逆時(shí)針為正方向)的累加θk=θk-1+ωk(1≤k≤n)。
圖2 旋轉(zhuǎn)角度函數(shù)定義(改自文獻(xiàn)[21])Fig.2 Defining the turning function(modified from[21])
面目標(biāo)版本A和B的旋轉(zhuǎn)函數(shù)距離計(jì)算方法如式(4)所示
式中,函數(shù)·p表示Lp范式;p值取2。形狀相似度與旋轉(zhuǎn)函數(shù)距離成反比,即距離越小,相似性越大,所以形狀相似度的定義如式(5)所示
式中,maxAA,B和minAA,B分別表示A和B的最大累計(jì)旋轉(zhuǎn)角和最小累計(jì)旋轉(zhuǎn)角。
兩個(gè)目標(biāo)的相似度除了形狀外,一般還從距離和大小度量,由于面積重疊率[17]的方法顧及了這兩個(gè)因素,所以本文采用面積重疊率計(jì)算,這里稱之為面積相似度,具體計(jì)算方法如式(6)所示
式中,AreaA、AreaB和AreaA∩B分別表示目標(biāo)版本A、B和A∩B的面積;函數(shù)Areamax表示取目標(biāo)A和B面積的最大值。根據(jù)式(1)、式(2)、形狀相似度(式(5))和面積相似度(式(6))計(jì)算公式,面目標(biāo)版本vi與vj的版本相似度計(jì)算方法為
式中,SSa(vi,vj)和SSs(vi,vj)分別表示面目標(biāo)的版本vi與版本vj的面積相似度和形狀相似度;wa和ws分別表示二者的權(quán)重。
3.1 版本編輯過程隱含用戶信譽(yù)評價(jià)過程分析
自發(fā)地理信息環(huán)境中,每個(gè)目標(biāo)可能由多個(gè)用戶參與編輯形成,蘊(yùn)含了多個(gè)用戶之間的隱式評價(jià);同時(shí),一個(gè)用戶可以參與多個(gè)目標(biāo)、多個(gè)版本的編輯,每個(gè)目標(biāo)、每個(gè)版本在編輯過程中均可獲得其他用戶的隱式評價(jià)。為了便于分析,下面以單個(gè)目標(biāo)為例分析用戶信譽(yù)計(jì)算的過程。
設(shè)志愿者地理空間對象A(包括點(diǎn)、線和面3種類型)包含的版本按生成時(shí)間的先后依次為v0、v1、v2、…、vn,其中的某個(gè)版本i用vi表示(0≤i≤n),版本v0為空;ti(1≤i≤n)為對象A的版本vi的生成時(shí)間;ui(1≤i≤n)表示對A對象進(jìn)行第i次編輯的用戶(也稱為志愿者),由于一個(gè)用戶可能多次編輯同一個(gè)目標(biāo),ui中可能存在用戶相同的情況;ei(1≤i≤n)表示用戶對A的第i次編輯(包括新建、刪除、修改等),如A被刪除,則其最終版本vn為空。如圖3所示,版本vi(1≤i≤n)是由用戶ui執(zhí)行的一次編輯ei:vi-1→vi而生成。也即對于某一對象A而言,用戶u1執(zhí)行編輯e1,生成版本v1,第2至n個(gè)志愿者依次對A的第1至n-1個(gè)版本進(jìn)行修改(依次為e2至en),其編輯者依次為u2至un。
圖3描述了多個(gè)用戶參與編輯、修改形成一個(gè)地理空間目標(biāo)的過程,當(dāng)某用戶對地理空間對象進(jìn)行編輯后,根據(jù)式(1)可以計(jì)算出編輯后版本與之前版本間的版本相似度,根據(jù)版本相似度可以計(jì)算出該用戶對之前版本用戶的信譽(yù)評價(jià)值。
圖3 地理空間對象編輯過程中的用戶信譽(yù)評價(jià)Fig.3 User reputation evaluation accompanying with editing process of geographic spatial object
3.2 用戶信譽(yù)度計(jì)算模型
在VGI編輯過程中,可能出現(xiàn)某一用戶短期內(nèi)連續(xù)編輯同一目標(biāo)導(dǎo)致系統(tǒng)中存在同一用戶編輯該目標(biāo)多個(gè)相鄰版本的情況(如圖4表述了某目標(biāo)的連續(xù)6個(gè)版本,分別由User A、B、C和D 4個(gè)用戶貢獻(xiàn),其中版本v1和v2是由User A貢獻(xiàn)的兩個(gè)連續(xù)版本),該情況往往是用戶為了避免數(shù)據(jù)丟失存盤導(dǎo)致或發(fā)現(xiàn)編輯效果不理想而導(dǎo)致的,一般認(rèn)為同一用戶的多個(gè)相鄰版本中最后一個(gè)代表了該用戶的確定版本,因此在用戶信譽(yù)定量計(jì)算之前,首先需要對同一用戶編輯的相鄰版本進(jìn)行過濾,僅保存同一用戶連續(xù)編輯的最后一個(gè)版本,如圖4中過濾掉版本v1。
圖4 某對象的連續(xù)版本Fig.4 Successive versions of an object
根據(jù)上節(jié)提出的用戶信譽(yù)計(jì)算過程,當(dāng)用戶uj對某對象A進(jìn)行編輯產(chǎn)生版本vj時(shí),設(shè)ti和tj分別為對象A的版本vi和版本vj的產(chǎn)生時(shí)間(其中0<i<j),對于所有j-i≤N,如果編輯原因?yàn)槟繕?biāo)變化,則不進(jìn)行信譽(yù)計(jì)算;如果編輯原因是目標(biāo)修正,則進(jìn)行信譽(yù)計(jì)算;如果編輯原因不清楚,則當(dāng)滿足tj-ti≤τ條件時(shí)進(jìn)行信譽(yù)計(jì)算;之前用戶ui因貢獻(xiàn)版本vi得到的信譽(yù)評價(jià)值根據(jù)式(8)計(jì)算式中,參數(shù)τ為時(shí)間閾值,用于當(dāng)編輯原因不明時(shí),通過控制參加評價(jià)的兩個(gè)版本間的時(shí)間跨度在短期范圍內(nèi),來區(qū)別目標(biāo)修正和目標(biāo)變化兩種情況,如果時(shí)間區(qū)間超過閾值,則不評價(jià);N為評價(jià)迭代次數(shù)閾值,當(dāng)版本vj生成時(shí)控制有N個(gè)小于j的目標(biāo)版本可被評價(jià);R(uj)是貢獻(xiàn)者uj在執(zhí)行編輯版本vj時(shí)的信譽(yù)值;參數(shù)c∈[0,1]為指數(shù)常數(shù),表示評價(jià)者的信譽(yù)值對其評價(jià)可信度的影響程度。另外,有3種情況不參與評價(jià):不評價(jià)自己的貢獻(xiàn);當(dāng)被評價(jià)者貢獻(xiàn)了多個(gè)版本,只評價(jià)最接近評價(jià)者的一個(gè)版本;當(dāng)評價(jià)者貢獻(xiàn)多個(gè)版本時(shí),不評價(jià)自己已經(jīng)評價(jià)過的版本。
式(8)是單個(gè)目標(biāo)的某個(gè)版本用戶對之前多個(gè)編輯用戶的信譽(yù)度計(jì)算,式中每個(gè)用戶ui只被評價(jià)一次,其值為repui。在自發(fā)地理信息中,每個(gè)用戶可以編輯多個(gè)空間目標(biāo)、多個(gè)版本對象Ol(1≤l≤M,M為用戶貢獻(xiàn)的版本對象的總數(shù)),每個(gè)對象Ol都可能被其他用戶修改而獲得信譽(yù)度replui。用戶信譽(yù)值為該用戶所有版本對象Ol信譽(yù)評價(jià)值的綜合,為了計(jì)算簡單,本文采用平均值計(jì)算,即
3.3 模型計(jì)算過程舉例
本節(jié)以圖1所示面目標(biāo)為例闡述本文基于版本相似度的用戶信譽(yù)計(jì)算過程,假設(shè)圖1中的面目標(biāo)的3個(gè)版本分別為v1、v2和v3,分別由u1、u2和u3貢獻(xiàn)(3位均為不同用戶),用戶的信譽(yù)初始值均為空值(表示為null)。首先,用戶u1貢獻(xiàn)版本v1,此時(shí)不進(jìn)行信譽(yù)評價(jià)。然后,當(dāng)用戶u2貢獻(xiàn)版本v2,計(jì)算步驟如下:
(1)根據(jù)式(4)計(jì)算v2和v1的面積相似度為0.894。
(2)根據(jù)式(6)計(jì)算v2和v1的形狀相似度為0.936。
(3)設(shè)wa和ws均為0.5,根據(jù)式(8)計(jì)算用戶u1的信譽(yù)單次評價(jià)值為0.915(當(dāng)評價(jià)用戶的信譽(yù)值為null時(shí),信譽(yù)評價(jià)值為版本相似度)。
(4)用戶u1的被評價(jià)次數(shù)為1,根據(jù)式(9)計(jì)算u1的信譽(yù)值為0.915。
最后,用戶u3貢獻(xiàn)版本v3,根據(jù)上述步驟依次計(jì)算用戶u1和u2的信譽(yù)評價(jià)值,分別為0.912和0.998,根據(jù)式(8),此時(shí)u1和u2的信譽(yù)值分別為0.914和0.998,具體計(jì)算情況如表1所示。
表1 用戶信譽(yù)評價(jià)過程舉例Tab.1 Example of evaluation process for user reputation
為了驗(yàn)證本文所提出的用戶信譽(yù)計(jì)算模型的合理性,采用自發(fā)地理信息的代表項(xiàng)目OSM的真實(shí)數(shù)據(jù)進(jìn)行試驗(yàn)。由于總數(shù)據(jù)量非常龐大,故選取Berlin城市2006年1月28日至2013年2月15的歷史數(shù)據(jù)(http:∥osm.personalwerk. de/)進(jìn)行試驗(yàn)分析。
根據(jù)前面提出的用戶信譽(yù)模型,設(shè)置參數(shù)N=3,wa=0.5,ws=0.5,c=1,τ=180。Berlin地理信息志愿者共有864位參與到信譽(yù)評價(jià)系統(tǒng)中,用戶信譽(yù)值范圍為0至1,以0.1為間隔分成10個(gè)區(qū)間,各區(qū)間人數(shù)分布為{0,0,1,6,20,26,121,359,224,107},從分布情況可以看出,用戶信譽(yù)值分布基本服從正態(tài)分布。鑒于有些用戶評價(jià)次數(shù)較少,其信譽(yù)值具有較大的隨機(jī)性。為減小隨機(jī)性,選取評價(jià)次數(shù)大于9次的用戶進(jìn)行后續(xù)的結(jié)果分析,共計(jì)篩選出257用戶,這些用戶的貢獻(xiàn)的面對象共計(jì)192 474個(gè)。為了驗(yàn)證試驗(yàn)結(jié)果,將用戶的信譽(yù)值附加到其貢獻(xiàn)的面對象,則面對象擁有貢獻(xiàn)者的信譽(yù)值,將面對象按照信譽(yù)值分布區(qū)間在ArcGIS上以不同顏色顯示,并疊加Google的影像地圖進(jìn)行分析,效果圖如圖5所示。
圖5 Berlin現(xiàn)存面對象(現(xiàn)勢性為2013-02-15)按信譽(yù)值區(qū)間分布圖Fig.5 Interval distribution of reputation of Berlin’s existing polygons(up to date 2013-02-15)
由于很難逐一驗(yàn)證每個(gè)面對象的準(zhǔn)確性,因此采用對每個(gè)區(qū)間進(jìn)行采樣分析的策略進(jìn)行驗(yàn)證。在區(qū)間的設(shè)置上,按照0.1間隔的自然分區(qū),由于0~0.5的對象較少,作為一個(gè)區(qū)。在樣本選取方面,為了避免主觀因素對評價(jià)結(jié)果的影響,本研究請有經(jīng)驗(yàn)的人員選取采樣樣本。樣本選取的方法是每個(gè)區(qū)間均采樣10個(gè)用戶,每個(gè)用戶取10個(gè)對象。根據(jù)面對象采樣情況,請有經(jīng)驗(yàn)的人員對采樣樣本進(jìn)行分析,將面對象的繪制效果主要分為錯誤、效果差和效果較好3類。
根據(jù)上面的采樣方法和分析方法,按區(qū)間分析采樣試驗(yàn)結(jié)果顯示,參與采樣評估的人數(shù)共有53人,有效采樣總數(shù)為485個(gè)面對象。錯誤面對象數(shù)為6個(gè),約占采樣總數(shù)1.2%;效果差的面對象數(shù)量為45個(gè),約占采樣總數(shù)9.3%;效果較好的面對象數(shù)量為434個(gè),約占采樣總數(shù)89.5%。
采樣分析結(jié)果表明總體上數(shù)據(jù)質(zhì)量較好,錯誤數(shù)量較少。信譽(yù)值低的用戶貢獻(xiàn)的面對象出現(xiàn)錯誤和效果差的情況比較突出,尤其當(dāng)信譽(yù)值低于0.7以下時(shí),錯誤數(shù)最突出,大約有83%錯誤由信譽(yù)值低于0.7的用戶貢獻(xiàn)。信譽(yù)值小于0.7的要素?cái)?shù)量為2294,占比約為1.2%,本試驗(yàn)較好地聚集錯誤出現(xiàn)的信譽(yù)區(qū)間。信譽(yù)值大于0.7的用戶錯誤數(shù)明顯減少,貢獻(xiàn)者信譽(yù)值大于0.75的用戶,未出現(xiàn)錯誤情況。效果較差的情況基本隨著信譽(yù)度值的提升按比例呈減少趨勢,總體來說,自發(fā)地理信息中的面對象的質(zhì)量和其貢獻(xiàn)者的信譽(yù)值呈正相關(guān)關(guān)系,同時(shí)也說明用戶信譽(yù)模型是評價(jià)自發(fā)地理信息可信度的一種有效方法。
本文針對目前評價(jià)VGI對象質(zhì)量的信譽(yù)模型均針對地理對象,尚未見到考慮貢獻(xiàn)者信譽(yù)的影響,因此本文提出基于版本相似度的VGI志愿者信譽(yù)模型,并采用OSM的真實(shí)歷史編輯數(shù)據(jù)進(jìn)行試驗(yàn),試驗(yàn)證明用戶貢獻(xiàn)的目標(biāo)質(zhì)量和使用本模型評價(jià)的用戶信譽(yù)總體上正相關(guān),志愿者信譽(yù)度可作為自發(fā)地理信息篩選與質(zhì)量評價(jià)的參考標(biāo)準(zhǔn)之一。本文提出從用戶信譽(yù)的角度來評價(jià)和篩選志愿者地理信息的方法,為VGI質(zhì)量評價(jià)提出了一個(gè)新的視角。本模型適用于志愿者貢獻(xiàn)的VGI質(zhì)量評價(jià),要求被評價(jià)的VGI數(shù)據(jù)集包含每個(gè)對象的歷史版本信息。本模型具有如下特點(diǎn):
(1)該模型不需要用戶對地理目標(biāo)額外打分,避免了繁瑣的評分過程,在不另增加志愿者參與工作量的同時(shí),避免了評價(jià)結(jié)果的主觀性。
(2)該模型是基于后繼用戶對之前版本修改越小,說明該用戶對之前版本編輯用戶的支持度越高,反之亦然的學(xué)術(shù)思想而提出。在版本相似度計(jì)算方面,該模型綜合考慮影響VGI目標(biāo)幾何和屬性相似性的主要因素進(jìn)行加權(quán)計(jì)算,試驗(yàn)證明用戶信譽(yù)和其貢獻(xiàn)的質(zhì)量成正比。
(3)VGI中僅由單個(gè)用戶貢獻(xiàn)的目標(biāo)大量存在,采用本文的方法可以評價(jià)這部分目標(biāo),相比不需要用戶主動評分的信譽(yù)模型而言,本模型評價(jià)覆蓋面廣。
需要進(jìn)一步研究版本相似度的其他空間相似指標(biāo)及屬性相似度,如何確定用戶的初始信譽(yù),如何聚合同一目標(biāo)的共同編輯者的信譽(yù)對其進(jìn)行更精準(zhǔn)的質(zhì)量評價(jià)。在以后設(shè)計(jì)和實(shí)現(xiàn)VGI系統(tǒng)方面,用戶上傳修改內(nèi)容的同時(shí),可提交修改原因(目標(biāo)變化或修正),這有助于更精確地評價(jià)用戶信譽(yù)。
[1] GOODCHILD M F.Citizens as Sensors:The World of Volunteered Geography[J].GeoJournal,2007,69(4):211-221.
[2] LI Deren,SHAO Zhenfeng.On New Geographic Information Age[J].Science China:Information Sciences,2009,39(6):579-587.(李德仁,邵振峰.論新地理信息時(shí)代[J].中國科學(xué):信息科學(xué)),2009,39(6):579-587.)
[3] GOODCHILD M F,LI Linna.Assuring the Quality of Volunteered Geographic Information[J].Spatial Statistics,2012,1:110-120.
[4] QIAN Xinlin.Research on the Representation and Management of Geospatial Data from Volunteered Geographic Information[D].Wuhan:Wuhan University,2011.(錢新林.面向自發(fā)地理信息的空間數(shù)據(jù)表達(dá)與管理方法研究[D].武漢:武漢大學(xué),2011.)
[5] CHEN Shuyan.A Web-based Accessibility Analysis Service Using OpenStreetMap Data[D].Shanghai:Shanghai Normal University,2010.(陳舒燕.基于OpenStreetMap的出行可達(dá)性分析與實(shí)現(xiàn)[D].上海:上海師范大學(xué),2010.)
[6] ZOOK M,GRAHAM M,SHELTON T,et al.Volunteered Geographic Information and Crowdsourcing Disaster Relief:A Case Study of the Haitian Earthquake[J].World Medical &Health Policy,2010,2(2):7-33.
[7] HU Qingwu,WANG Ming,Li Qingquan.Urban Hotspot and Commercial Area Exploration with Check-in Data[J]. Acta Geodaetica et Cartographica Sinica,2014,43(3):314-321.(胡慶武,王明,李清泉.利用位置簽到數(shù)據(jù)探索城市熱點(diǎn)與商圈[J].測繪學(xué)報(bào),2014,43(3):314-321.)
[8] ZHANG Hongping,GU Xueyun,XIONG Ping,et al. Development and Application of Volunteered Geographic Information[J].Geomatics World,2012,10(4):67-71.(張紅平,顧學(xué)云,熊萍,等.志愿者地理信息研究與應(yīng)用初探[J].地理信息世界,2012,10(4):67-71.)
[9] FLANAGIN A J,METZGER M J.The Credibility of Volunteered Geographic Information[J].GeoJournal,2008,72(3-4):137-148.
[10] VAN EXEL M,DIAS E,F(xiàn)RUIJTIER S.The Impact of Crowdsourcing on Spatial Data Quality Indicators[C]∥Proceedings of the 6th GIScience International Conference on Geographic Information Science.Zurich,Switzerland[s. n.],2010:213-216.
[11] HAKLAY M.How Good Is Volunteered Geographical Information?A Comparative Study of OpenStreetMap and Ordnance Survey Datasets[J].Environment and Planning B:Planning &Design,2010,37(4):682.
[12] GIRRES J F,TOUYA G.Quality Assessment of the French OpenStreetMap Dataset[J].Transactions in GIS,2010,14(4):435-459.
[13] KEβLER C,DE GROOT R T A.Trust as a Proxy Measure for the Quality of Volunteered Geographic Information in the Case of OpenStreetMap[M]∥Geographic Information Science at the Heart of Europe.Berlin:Springer,2013:21-37.
[14] BISHR M,MANTELAS L.A Trust and Reputation Model for Filtering and Classifying Knowledge about Urban Growth[J].GeoJournal,2008,72(3-4):229-237.
[15] HAO Yanling,TANG Wenjing,ZHAO Yuxin,et al.Areal Feature Matching Algorithm Based on Spatial Similarity[J].Acta Geodaetica et Cartographica Sinica,2008,37(4):501-506.(郝燕玲,唐文靜,趙玉新,等.基于空間相似性的面實(shí)體匹配算法研究.測繪學(xué)報(bào),2008,37(4):501-506.)
[16] TANG Luliang,LI Qingquan,YANG Bisheng.Similarity Measuring for Multi-resolution Transmission of Spatial Datasets over the Internet[J].Acta Geodaetica et Cartographica Sinica,2009,38(4):336-340.(唐爐亮,李清泉,楊必勝.空間數(shù)據(jù)網(wǎng)絡(luò)多分辨率傳輸?shù)膸缀螆D形相似性度量[J].測繪學(xué)報(bào),2009,38(4):336-340.)
[17] MASUYAMA A.Methods for Detecting Apparent Differences between Spatial Tessellations at Different Time Points[J]. International Journal of Geographical Information Science,2006,20(6):633-648.
[18] AI Tinghua,SHUAI Yun,LI Jingzhong.A Spatial Query Based on Shape Similarity Cognition[J].Acta Geodaetica et Cartographica Sinica,2009,38(4):356-362.(艾廷華,帥赟,李精忠.基于形狀相似性識別的空間查詢[J].測繪學(xué)報(bào),2009,38(4):356-362.)[19] FU Zhongliang,LU Yuefeng.Establishment of the Comprehensive Model for Similarity of Polygon Entity by Using the Bending Radius Complex Function[J].Acta Geodaetica et Cartographica Sinica,2013,42(1):145-151.(付仲良,逯躍鋒.利用彎曲度半徑復(fù)函數(shù)構(gòu)建綜合面實(shí)體相似度模型[J].測繪學(xué)報(bào),2013,42(1):145-151.)
[20] AN Xiaoya,SUN Qun,XIAO Qiang,et al.A Shape Multilevel Description Method and Application in Measuring Geometry Similarity of Multi-scale Spatial Data[J].Acta Geodaetica et Cartographica Sinica,2011,40(4):495-501.(安曉亞,孫群,肖強(qiáng),等.一種形狀多級描述方法及在多尺度空間數(shù)據(jù)幾何相似性度量中的應(yīng)用[J].測繪學(xué)報(bào),2011,40(4):495-501.)
[21] ARKIN E M,CHEW L P,HUTTENLOCHER D P,et al.An Efficiently Computable Metric for Comparing Polygonal Shapes[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1991,13(3):209-216.
[22] FAN H,ZIPF A,F(xiàn)U Q,et al.Quality Assessment for Building Footprints Data on OpenStreetMap[J].International Journal of Geographical Information Science,2014,28(4):700-719.
(責(zé)任編輯:宋啟凡)
E-maiI:zxgcsu@foxmaiI.com
Version SimiIarity-based ModeI for VoIunteers’Reputation of VoIunteered Geographic Information:A Case Study of PoIygon
ZHAO Yijiang1,2,ZHOU Xiaoguang1
1.SchooI of Geosciences and Info-physics,CentraI South University,Changsha410083,China;2.Key Laboratory of KnowIedge Processing and Networked Manufacturing,Hunan University of Science and TechnoIogy,Xiangtan 411201,China
At present,it is difficuIt to evaIuate the quaIity of voIunteered geographic information(VGI),which have maIicious,faIse,and poor quaIity data.Therefore,a version simiIarity-based reputation modeI for voIunteers of VGI system is proposed.In the modeI,each editing to a geographic spatiaI object of each voIunteer is defined as a version.When the object version is modified by other users,support degree of the version is computed through version simiIarity.Then,support degree of every object contributed by a voIunteer is caIcuIated according by others’modifications.The voIunteer’s reputation is obtained through weighted average of aII his support degrees.The version simiIarity composites major factors of spatiaI simiIarity and attributes simiIarity between versions of a same object.PoIygon objects are empIoyed as an exampIe to describe the computation process of voIunteer reputation of our modeI.For verifying and anaIyzing the rationaIity of our reputation modeI,BerIin’s historicaI data from OpenStreetMap are used for experiments.It shows that users’reputation caIcuIated by our modeI has a positive correIation with quaIity of objects contributed by them as a whoIe.
voIunteered geographic information;reputation evaIuation modeI;version simiIarity;Open-StreetMap
The NationaI NaturaI Science Foundation of China(No.41371366);The NationaI High-tech Research and DeveIopment Program of China(863 Program)(No.2012AA121301);The NationaI Key TechnoIogy Research and DeveIopment Program of the Ministry of Science and TechnoIogy of China(No.2012BAK12B01)
ZHAO Yijiang(1980—),maIe,Iecturer,PhD candidate,majors in voIunteered geographic information.
ZHOU Xiaoguang
P208
A
1001-1595(2015)05-0578-07
國家自然科學(xué)基金(41371366);國家863計(jì)劃(2012AA121301);國家科技支撐計(jì)劃(2012BAK12B01)
ZHAO Yijiang,ZHOU Xiaoguang.Version Similarity-based Model for Volunteers’Reputation of Volunteered Geographic Information:A Case Study of Polygon[J].Acta Geodaetica et Cartographica Sinica,2015,44(5):578-584.(趙肄江,周曉光.地理信息志愿者信譽(yù)度評估的版本相似度模型——以面目標(biāo)為例[J].測繪學(xué)報(bào),2015,44(5):578-584.)
10.11947/j.AGCS.2015.20140065
2014-01-28
趙肄江(1980—),男,講師,博士生,主要從事眾源地理信息相關(guān)研究。
周曉光
修回日期:2014-09-23
E-maiI:zyriver@gmaiI.com