王 博,溫繼文
(北京林業(yè)大學經濟管理學院,北京 100083)
林業(yè)“開放政府數據”(Open Government Data,OGD)能夠釋放林業(yè)數據價值,提升林業(yè)治理精準化,改善林業(yè)部門的社會服務能力。我國已建成“國家林業(yè)數據共享服務平臺”“中國林業(yè)數據庫”等開放數據平臺,但存在規(guī)范性差、可讀性低、格式單一、難以下載與難以重用等質量問題[1],數據開放僅流于形式,林業(yè)開放政府數據的質量問題逐漸得到關注。
提高開放政府數據質量的前提是實現數據管理的標準化和規(guī)范化,即運用元數據規(guī)范對政府數據進行科學描述,以提高政府數據資源的公眾發(fā)現和重用[2],元數據質量的優(yōu)劣直接影響到開放政府數據的質量和效果[3]。目前,國內外學者主要基于元數據元素及元數據記錄評估開放政府數據的質量,缺乏系統(tǒng)的開放政府數據質量評估框架和量化方法研究,主要體現在兩個方面:一方面,沒有分析開放政府數據的“生成-開放-使用”生命周期對數據質量的要求;另一方面,主要從數據的“內容”和“形式”兩個角度,選取存在性、完整性和可追溯性等指標進行分析[4],缺乏數據“使用質量”的研究,無法衡量政府數據開放后的效果和價值。
本文分析了林業(yè)開放政府數據資源特征,基于開放政府數據生命周期“生成-開放-使用”三個階段,從開放政府元數據元素及元數據記錄,構建全面衡量林業(yè)開放政府數據的“數據形式”“數據內容”和“數據使用”質量評估框架、評估指標及其量化方法,為我國開放政府數據質量評估提供理論與方法指導。
隨著開放政府數據平臺資源數量的高速增長,開放政府數據及相應元數據的質量問題也逐步浮現[5]。近年來,國內外學者提出了各種元數據質量評估指標(表1),并逐漸應用于開放政府數據的質量評估的研究中。Moen 等[6]確定了21 個元數據質量標準用于美國政府信息定位服務GILS 的評估;Bruce 等[7]提出了一套與元數據的創(chuàng)建和應用環(huán)境無關的評估體系,研究了7 個最常見的質量元數據特征;還有學者研究了數據量、數據獲取、完整性、可追溯性、時效性、精確性等開放政府數據質量維度[5,8];也有學者基于不同元數據模式(如DCAT、CKAN、Socrata、OpenDataSoft)評估開放政府數據的元數據質量:存在性、合規(guī)性、開放性、完整性、及時性、許可證、關聯性、可訪問性等[9-10]。然而,大多研究優(yōu)先評估“數據形式”與“數據內容”質量,對“數據使用效用”的評估內容不夠充分,而且這些評估指標的研究不夠系統(tǒng)。
國外學者較早開展了元數據質量評估指標量化的研究,并在開放政府數據領域進行實踐和應用。Ochoa 等[12]研究了Bruce 等[7]提出的七個質量評估指標的量化方法:①計算非空記錄數的占比衡量完整性,提出賦予動態(tài)權重的加權完整性;②計算用戶從元數據實例提取的信息與同一用戶可以從資源本身及其上下文獲得的信息之間的語義距離衡量準確性;③計算元數據記錄內容的信息熵衡量元數據的期望符合度;④將Flesch 指數應用于衡量用戶理解元數據實例中包含的信息的容易程度;⑤統(tǒng)計不同時段的前述質量指標,可得及時性和溯源性。張曉娟等[3]將該方法應用于我國省級政府數據開放平臺的質量評估中;還提出了開放政府數據的更新性定量指標[14]。Neumaier 等[9]提出利用數據門戶模型的度量函數,通過計算相應DCAT 屬性集合的平均值來評估元數據的質量度量,于夢月[13]將該方法應用于國內數據開放門戶的數據進行質量評估。目前,這些指標及其量化方法,一部分基于元數據結構;另一部分基于元數據實例,沒有進行系統(tǒng)全面的總結,而且這些指標的量化方法應用在一般性開放政府數據平臺,缺少對行業(yè)性開放政府數據平臺的研究??傮w而言,開放政府數據的元數據質量評估,朝著基于元數據構建定量可測的質量指標,進行自動化評估的方向發(fā)展。
表1 元數據質量評估指標
目前,國內已經建設了中國林業(yè)數據庫開放共享平臺、林業(yè)科學數據中心等平臺,開放了生態(tài)、經濟與社會三大類具有不同時態(tài)、格式多樣的林業(yè)政府數據。然而,不同形態(tài)、時態(tài)的數據具有不同的質量要求(表2),沒有專有的林業(yè)開放政府數據元數據標準,當前已經有開放政府數據元數據標準或規(guī)范實行,如DCAT 詞匯表、開源數據門戶CK‐AN 元數據、美國開放政府數據元數據項目POD(Project Open Data),國內針對林業(yè)科學數據與林業(yè)資源數據分別設有林業(yè)科學數據元數據標準和森林資源數據核心元數據兩個標準。這些標準描述了數據集的標識、質量、空間表示、空間參照、內容、數據分發(fā)、元數據參考以及引用、時間和聯系信息與共享信息等內容。其中,林業(yè)科學數據元數據以美國聯邦地理數據委員會的“地理空間元數據的內容標準(CSDGM)”和國際標準ISO TC211 為參考。因此,本文結合國際采用的開放政府數據標準(如DC、DCAT、CKAN 等)與林業(yè)專業(yè)數據的元數據標準,作為本研究依據的林業(yè)開放政府數據元數據標準。
表2 林業(yè)開放政府數據的內容、格式及質量要求
基于元數據的林業(yè)開放政府數據質量評估,是針對開放政府數據平臺中的元數據結構和元數據實例開展的數據質量評估。
開放政府數據質量評估可以借鑒一般的數據質量評估,從數據的形式、內容與效用三個方面開展研究[15]:①形式質量是基于數據的基本結構來考察數據的質量特征;②內容質量是基于數據內容來考察數據對事物狀態(tài)的表述程度;③效用質量主要考察數據產品對數據用戶的效用和價值以及數據滿足數據用戶需求的程度。
開放政府數據質量評估又不同于一般的數據質量評估,由于開放政府數據存在“生成-開放-使用”的生命周期,每個階段對數據質量具有不同的要求,因此,開放政府數據的質量評估在不同階段具有不同的指標。目前,開放政府數據的質量評估大多從“形式質量”“內容質量”層面進行分析,缺乏對“效用質量”評估指標的研究,而且沒有結合開放政府數據生命周期的動態(tài)性開展研究。
因此,本文提出從林業(yè)開放政府數據“生成-開放-使用”三個生命周期階段與“形式-內容-效用”三個質量層面的兩個維度,構建林業(yè)開放政府數據的質量評估框架(圖1)。
圖1 林業(yè)開放政府數據的質量評估框架
林業(yè)開放政府數據質量的評估需要考慮多個維度,本文選擇Bruce 等[7]提出的7 個最常見的質量元數據特征作為基礎,因其是獨立于元數據的創(chuàng)建和應用環(huán)境的評估體系,具有更廣的應用范圍。本著“科學、全面、針對性強、易操作”的原則,從元數據元素的存在性、元數據記錄的完整性、合規(guī)性評估元數據的形式質量,基于元數據實例評估數據的內容與效用質量:開放性、完整性、可理解性、期望符合度、更新性和可訪問性,達到從“數據形式-數據內容-數據使用效用”對林業(yè)開放政府數據進行質量評估。林業(yè)開放政府數據的質量評估內容如表3 所示。
表3 林業(yè)開放政府數據的質量評估內容
林業(yè)開放政府數據平臺(以下簡稱“平臺P”)提供數據集的元數據描述,m表示平臺P上每一個可用元數據描述,一個元數據描述m只對應一個數據集的URL。本文參考文獻[9]定義了平臺P上一個元數據實例m的基本質量指標的度量模型,即
其中,K表示質量評估指標涉及的元數據元素;f(K)指對符合K條件的元數據實例進行的函數操作;agg 為聚合函數,用來指定如何聚合所有元數據實例的f值,還可通過聚合多個基本質量指標形成綜合質量指標。
元數據元素層的質量評估可從三個方面入手:①存在,是指是否提供關鍵性元數據元素,衡量元數據是否全面、詳盡地描述目標資源;②非空,是指在存在元數據關鍵元素的情況下,其實際的記錄值是否存在缺失值;③符合規(guī)范,是指某些元數據是否符合格式規(guī)范要求。
4.2.1 存在性
存在性是衡量平臺已提供的元數據元素存在于元數據標準中的存在率,本文將存在性分為簡單存在度與關鍵存在度。公式(2)為判斷元數據元素K是否存在的布爾函數ifExistence:
1)簡單存在度
Metric(K,ifExistence,max)表示平臺P提供的能與元數據標準映射的元數據元素K,使用max 聚合函數,表示存在,記為1;count(all_meta_std)表示元數據標準中元數據元素個數,則平臺P的簡單存在度為:
2)關鍵存在度
關鍵存在度是指在生成階段是否提供能夠發(fā)現/檢索、訪問/定位信息;開放階段是否提供數據集的管理、維護信息以及元數據信息等關鍵元素。本文定義了衡量關鍵存在度必須有的關鍵性元素列表(表4),表5 所設的公式(4)~公式(9)定義了計算平臺P的關鍵存在度的方式。
4.2.2 完整性
完整性是指元數據中非空元數據實例的比率,以衡量數據集是否提供了完整的元數據信息,采用簡單完整度與加權完整度兩個完整性指標來衡量。本文定義了布爾函數nonEmpty,確定元數據元素K的第i個元數據實例Ki是否非空:
1)簡單完整度
簡單完整度計算了每個元數據元素的非空實例的數量占比。令N代表平臺P的元數據實例總數,當平臺P的元數據元素K的第i個實例為空時,則Metric(Ki,nonEmpty) = 0,平臺P的一個元數據元素K的全部元數據實例的簡單完整度的計算方式為
2)加權完整度
并非所有元數據元素都與所有數據資源相關,且與上下文同等重要程度相關,因此,加權完整度提出為每個元數據元素賦予權重,再進行完整度的計算:
其中,αi為元數據元素K的權重,表示元數據元素對某些上下文或任務的重要性(或相關性)的任何正值,如果更頻繁地使用某元素,那么其加權完整性度量應相應地改變,這也體現出加權系數應適應用戶需求的變化而變化。
表4 關鍵性元數據元素說明
表5 關鍵元數據元素的關鍵存在度計算方法
在計算平臺中各元數據元素的權重時,可依據各元數據元素meta 被用戶使用的頻數動態(tài)確定其權重。本文提出采用熵權法的原理,根據各平臺的元數據元素的使用人數占比率求得各元數據元素的權重,進而計算其加權完整度。假設共有P個平臺,元數據標準共有M個元數據元素,平臺累計使用的用戶數為user,M個元數據元素的被使用次數為use,因此可以計算求得各個平臺的各元素的使用頻率Upm(p= 1,2,…,P;m= 1,2,…,M) (表6),表7為加權完整度的計算步驟。
4.2.3 合規(guī)性
合規(guī)性是指應具有標準/規(guī)定數值內容的元數據元素中合規(guī)的元數據實例個數占比。公式(13)定義了檢驗元數據元素實例Ki是否合規(guī)的布爾函數nonCompliance,
當平臺P上K元素的第i個實例不合規(guī)時,則Metric(Ki,nonCompliance) = 0。公式(14)計算了平臺P的合規(guī)性:
本文提出以下需要具有符合標準/規(guī)定輸入內容的元數據元素及其合規(guī)性檢驗方式(表8)。
表6 各平臺各元數據元素的使用占比數值表
表7 加權完整度的計算步驟
4.3.1 全面性
全面性是衡量林業(yè)開放政府數據內容的豐富性,如是否提供了林業(yè)領域各業(yè)務主題的數據內容。由于林業(yè)沒有統(tǒng)一的開放政府數據資源目錄,本文以《政務信息資源分類》[16]為標準,整理出以主題、行業(yè)為分類依據的林業(yè)數據主題分類目錄(表9)。本文將“數據主題”元數據元素作為計算依 據,使 用Python 的difflib 庫:difflib.Sequence‐Matcher(None,val1,val2).quick_ratio()進行文本相似度計算,得到表9 中與元數據實例具有最高相似度的標準主題分類,以此來標注現有平臺提供的數據內容的全面性。
4.3.2 可理解性
當用戶訪問/下載所需數據后,接受、理解數據資源內容的容易程度至關重要,因此,衡量元數據相關描述信息能否方便用戶理解數據資源內容的容易程度(即用戶的可理解性)是元數據的質量要求。Flesch 指數可以應用于分析元數據實例的長文本元素(本文將“數據描述abstract”作為計算依據),當Flesch 指數得分越高,閱讀文本越容易。Python 提供了一個計算可閱讀性的包textstat,本文采用內置公式textstat.flesch_reading_ease(abstract)計算abstract 文本的易讀性指標作為可理解性,
4.3.3 開放性
開放性的提出基于開放知識需滿足的三個要求:①可以自由訪問;②以機器可讀和開放格式提供;③公開授權。要求①在可訪問性中已有衡量,本文引入數據格式的開放性、機器可讀、開放許可來衡量要求②和要求③。
表8 元數據元素的合規(guī)性檢驗方法
表9 林業(yè)開放政府數據主題分類目錄
1)格式開放度
本文應用歐盟的開放數據監(jiān)測器OpenDataMon‐itor 項目對文件格式的評估中定義的非專屬格式列表[17]:
本文定義了布爾函數isOpenFormat,
確定數據格式是否在開放格式列表中。若平臺P的第i個實例的所記錄的數據格式不包含在預定義的開放格式描述列表中,則Metric(Ki,isOpenFormat)= 0。例如,若某數據資源的“數據格式”記錄值為“CSV”,則Metric(Ki,isOpenFormat) = 1。公式(17)計算平臺P的開放格式數據集比率:
2)機器可讀度
本文應用歐盟的開放數據監(jiān)測器OpenDataMon‐itor 項目對文件格式的評估中定義的機器可讀格式列表[17]:
cdf, csv, csv.zip, esri shapefile, geojson, iati, ical,ics, json, kml, kmz, netcdf, nt, ods, psv, psv.zip, rdf, rd‐fa, rss, shapefile, shp, shp.zip, sparql, sparql web form,tsv, ttl, wms, xlb, xls, xls.zip, xlsx, xml, xml.zip
本文定義了布爾函數isMachineReadable,
判斷元數據實例Ki的數據格式的機器可讀性。若Ki所記錄的數據格式包含在預定義的機器可讀格式描述列表中,則返回1。例如,若某數據資源的“數據 格 式” 記 錄 值 為“CSV”, 則 Metric(Ki,isMachineReadable) = 1。同時定義
計算平臺P的機器可讀數據集比率。
3)許可開放度
本文應用歐盟的開放數據監(jiān)測器OpenDataMon‐itor 項目對文件格式的評估中定義的機器可讀格式列表[17]:
定義布爾函數isOpenLicense,判斷元數據實例值是否在開放定義提供的許可證列表中,以評估指定許可證的方式確認每個數據集的許可證的開放性。若Ki所記錄的許可證包含在預定義的開放許可描述列表中,則返回1。例如,若某數據資源的“許可證”實例值為“OGL”,則Metric(Ki,isOpenLicense) = 1。公式(21)計算了平臺P的已知/未知許可證使用率:
4.3.4 更新性
更新性指標的設計參考了文獻[15],依據數據發(fā)布日期與更新日期來劃分“存量/增量”數據:數據發(fā)布日期在近一年內(2018—2019 年),且在更新周期內保持最新狀態(tài)的數據(即發(fā)布日期與更新日期相同)作為“增量數據”。其余的“存量數據”中超過更新周期而未進行更新的增量數據為歷史增量數據,這部分數據沒有得到持續(xù)的更新積累,隨時間的變化價值逐漸降低。本文并從持續(xù)性、適時性和活躍性三個方面對兩類數據的更新狀態(tài)進行研究,主要指標有:更新積累度、更新及時度、更新增長度和更新轉化度。
定義布爾函數isStockOrIncremental,
判斷該數據集的數據類型。其中,Ds為數據首次發(fā)布日期;Du為最近更新日期;De為當前調查日期。
1)持續(xù)性——更新積累度
持續(xù)性的評估對象是存量數據,設更新積累度為U,將實際的數據集版本數Va與理應更新的期望數據集版本數Vp相除,得到更新積累度。當數據集的數據發(fā)布日期Ds與最近更新日期Du相同時,按照當前調查日期De為截止時間,數據發(fā)布日期Ds為起始時間,如公式(23)所示,U越大,更新積累度越高:
2)適時性——更新及時度
適時性的評估對象是存量數據,以當前調查日期De為基準判斷最近更新日期Du是否在規(guī)定的更新周期內,計算當前調查日期De與最新更新日期Du的時間差,并與最新更新日期Du與數據首次發(fā)布日期Ds的時間差做比較。設及時度為T,則更新及時度為
當Ds=Du≤De時,認為QUpdateness(PT)= 1,此指標的計算值無意義。當Ds<Du=De時,QUpdateness(PT)=0,可認為更新及時度最佳。當Ds<Du<De時,若QUpdateness(PT) ≥1,則認為更新及時度不合格,T值越大,更新及時度越低;若QUpdateness(PT) <1 時,則認為更新及時度合格。
3)活躍性——更新增長度
活躍性的評估對象主要是增量數據,通過計算增量數據相對于存量數據的比重衡量其更新增長度,設存量數據的數量為X,增量數據的數量為Y,更新增長度為Z,則更新增長度為
Z越大,該數據開放平臺的增量數據就越多,即其開放的林業(yè)政府數據越活躍。
4)活躍性——更新轉化度
更新轉化度可衡量存量數據中歷史增量數據的有效轉化比重,設更新轉化度為W,未轉化的歷史增量數據數量為V,則更新轉化度為
4.3.5 可訪問性
可訪問性是衡量用戶通過平臺提供的數據資源訪問URL 真正訪問到實際數據資源的程度,這是用戶使用數據的基礎保障。評估內容可分為兩部分:①使用正則表達式驗證Access URL、Download URL的訪問屬性的值是否為有效HTTP URL;②通過使用GET 請求返回HTTP 狀態(tài)代碼展示錯誤狀態(tài)碼的分布。
1)URL 有效度
定義布爾函數isValidURL,
通過正則表達式“[a-zA-z]+://[^s]*”分別檢驗Ac‐cess URL、Download URL 的有效性。公式(28)計算了平臺P的URL 有效度,規(guī)定了有效URL 的標識過程:
若平臺P的第i個實例的所記錄的“訪問地址”或“下載地址”其中一個為有效值,則max 函數使得Metric(K{訪問地址,下載地址}i,isValidUrl,max)=1。
2)錯誤狀態(tài)碼
本文定義了函數isErrorCode,
通過獲取GET 請求的HTTP 狀態(tài)代碼來計算錯誤狀態(tài)碼(error status codes)的分布。參考美國“開放數據項目(Project Open Data) ”的儀表板在線系統(tǒng),分別為5 種狀態(tài)碼給定從0~1 的5 等距得分作為此函數的值。公式(30)使用max 函數統(tǒng)計了平臺P中第i個實例的所記錄的“訪問地址”或“下載地址”返回的狀態(tài)碼函數值,
因而可基于展示出URL 狀態(tài)碼的分布,求得平臺P的URL 狀態(tài)碼分值。
4.3.6 期望符合度
期望符合度是衡量提供的元數據內容滿足數據用戶需求的程度,可通過測量元數據實例信息量的方法來估計其與用戶的期望的一致性。熵通常被用來衡量一條信息的信息內容,計算元數據實例的信息熵,需先將元數據元素歸為兩類:受控值元素的信息量和自由文本元素的信息量[18]。
1)受控值元素的信息量
需從受控詞匯表中取值的元素為“受控值元素”,記為control_meta,通過計算平臺P上所有元數據實例中該受控值元素中存在value 值的相對頻次并將其標準化,使其從最小值0(最低質量)到最大值1(最高質量)變化,
表示平臺P上受控值元素在第i個元數據實例中的信息量。設C為受控值元素數量,control_metaj為第j個受控值元素,公式(32)表示平臺P上所有元數據實例的所有受控值元素的平均信息熵:
2)自由文本元素的信息量
取值為自由文本的元素為“自由文本值元素”,記為freetext_meta。對于自由文本元素,信息內容計算需要估計每個單詞在每個元素中的貢獻,因此,選擇使用術語頻率-逆文檔頻率(TFIDF)值計算單詞的重要性。公式(33)提供了平臺P上自由文本信息元素freetext_meta 在第i個元數據實例中的信息量內容的計算:
其中, tf(wordw) 表示第w個詞的術語頻率;df(wordw)表示第w個詞的文檔頻率;W表示該自由文本值元素freetext_meta 中有效詞的個數。設T為自由文本元素數量,freetext_metaj為第j個自由文本值元素,公式(34)計算了數據開放平臺P上所有元數據實例的所有自由文本元素的平均信息熵:
4.3.7 使用性
使用率的衡量主要基于用戶行為數據,本文將用戶使用行為歸納為“檢索→瀏覽→下載/分享→反饋”,其使用行為數據包括數據集的被檢索次數、瀏覽時長、瀏覽次數、下載次數、分享次數與分享目的地,以及評分與評價內容等。因此,本文提出“使用轉化度”質量指標,定義了Filler 函數,
來度量每一個元數據實例的相鄰用戶行為(K1,K2)的轉化度。公式(36)計算了平臺P上所有元數據實例的該相鄰行為的轉化度:
4.3.8 及時性
元數據實例的瞬時值在給定的時間可以等同于其整體質量[12],本文將前述指標的平均值用作平臺元數據質量的瞬時估計值。設Qi為第i個指標的度量值,count(Q)為前述指標的數量,公式(37)計算了平臺P在當前時間下的元數據質量瞬時值:
設t1、t2、t3為不同時間節(jié)點,以t2對應當前時間,t3為期望Qcurr估計的時間,公式(38)通過測量一段時間內瞬時值的變化率來估計元數據實例的及時度Qtime:
能表明質量變化的方向。Qtime(t2-t1)為(t1-t2)間隔期間的及時度,公式(39)可估計未來時間的元數據質量:
本文的結論主要有三方面:第一,基于林業(yè)開放政府數據資源特征與開放政府數據生命周期理論,分別從開放政府數據生命周期“生成-開放-使用”三個階段與“形式-內容-效用”三個質量層面,構建了林業(yè)開放政府數據質量評估框架;第二,針對目前開放政府數據質量評估中缺乏“效用質量”的研究現狀,提出從元數據元素的存在性、元數據實例的完整性、合規(guī)性評估數據質量,基于元數據實例評估林業(yè)開放政府數據的全面性、可理解性、開放性、更新性、可訪問性、期望符合度、使用性與及時性;第三,通過定義質量評估指標度量模型,提出質量評估指標的量化公式,構建全面衡量林業(yè)開放政府數據質量評估框架、評估指標及其量化方法,為一般開放政府數據質量評估提供借鑒。
本文提出的基于元數據的林業(yè)開放政府數據質量評估方法還有待于進一步驗證,接下來的研究主要有兩個方面。一方面,通過采集現有林業(yè)開放政府數據平臺的元數據元素與元數據實例,應用本文提出的質量評估量化方法,驗證基于元數據的林業(yè)開放政府數據質量評估指標的可靠性和可行性;另一方面,林業(yè)開放政府數據質量自動評估系統(tǒng)是管控林業(yè)開放政府數據質量的重要方式,將質量評估指標的量化方式納入系統(tǒng),能夠實現定期檢測、自動評估開放政府數據平臺的數據質量,不僅有助于幫助政府發(fā)現開放數據的質量問題,還能使人們以創(chuàng)新的方式使用數據,提升開放政府數據的價值。