[摘要]數(shù)據(jù)質(zhì)量影響用戶數(shù)據(jù)的整合過程與結(jié)果、數(shù)據(jù)庫的應(yīng)用性、商業(yè)智能開發(fā)以及商業(yè)品牌。由信息系統(tǒng)呈現(xiàn)的數(shù)據(jù),為滿足用戶的需求并將其做有效的應(yīng)用,基礎(chǔ)均在于數(shù)據(jù)的質(zhì)量。針對數(shù)據(jù)質(zhì)量的評估方式、管理架構(gòu)和評估要素,建構(gòu)數(shù)據(jù)質(zhì)量評價指標(biāo)體系,為提高數(shù)據(jù)質(zhì)量從而改善圖書館信息服務(wù)提供參考。
[關(guān)鍵詞]數(shù)據(jù)質(zhì)量;數(shù)據(jù)管理;圖書館;信息服務(wù)
[中圖分類號]G252
[文獻(xiàn)標(biāo)識碼]A
[文章編號]1008—0821(2012)08-0068—03
微軟研究院科學(xué)家Jim Gray在2007年提出了以數(shù)據(jù)為基礎(chǔ)的科學(xué)研究第四范式的概念:科學(xué)研究越來越依賴于數(shù)據(jù)的聚集和分析。隨著信息技術(shù)的發(fā)展,在有限的時間里,快速收集復(fù)雜而且大量的資料或數(shù)據(jù)(data),由數(shù)據(jù)整合與分析構(gòu)建信息主體,再匯集足夠的信息,發(fā)展成為知識,有了知識作為決策參考,采取行動,最后取得效益。然而,由圖書館信息服務(wù)系統(tǒng)所呈現(xiàn)的數(shù)據(jù),無論是數(shù)字型態(tài)還是文字型態(tài),為滿足使用者的需求并將數(shù)據(jù)做有效的應(yīng)用,一切基礎(chǔ)均在于數(shù)據(jù)質(zhì)量。數(shù)據(jù)質(zhì)量會影響人們對組織的看法、用戶數(shù)據(jù)整合過程與結(jié)果、數(shù)據(jù)庫的應(yīng)用性、商業(yè)智能開發(fā)以及商業(yè)品牌。因此,圖書館在為用戶提供信息服務(wù)時,必考慮的要素即是資料或數(shù)據(jù)質(zhì)量。
1 數(shù)據(jù)質(zhì)量管理
數(shù)據(jù)質(zhì)量是數(shù)據(jù)滿足明確或隱含需求程度的指標(biāo)。數(shù)據(jù)質(zhì)量是主觀性的,由使用者決定數(shù)據(jù)是否適用,或是否高質(zhì)量的。數(shù)據(jù)質(zhì)量評估可分為兩類:一是針對數(shù)據(jù)產(chǎn)品的收集者、保管者、用戶的需求與經(jīng)驗等方面進(jìn)行評估,稱之為主觀性評估;一是以任務(wù)獨立性與任務(wù)依賴性兩方面進(jìn)行評估,則稱為客觀性評估。
數(shù)據(jù)質(zhì)量管理是指對數(shù)據(jù)從計劃、獲取、存儲、共享、維護(hù)、應(yīng)用、消亡生命周期的每個階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識別、度量、監(jiān)控、預(yù)警等一系列管理活動,并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。數(shù)據(jù)質(zhì)量管理是循環(huán)管理過程,其終極目標(biāo)是通過可靠的數(shù)據(jù)提升數(shù)據(jù)在使用中的價值,并最終為企業(yè)贏得經(jīng)濟效益,主要包括:數(shù)據(jù)分析(profiling)、數(shù)據(jù)清洗(cleaning)、數(shù)據(jù)提升(enhancement)、數(shù)據(jù)匹配與整合(matcheonsolidate)、數(shù)據(jù)監(jiān)控(monitoring)等內(nèi)容。
1.1 數(shù)據(jù)分析
通過數(shù)據(jù)分析的過程使數(shù)據(jù)收集者能夠了解數(shù)據(jù)以及診斷數(shù)據(jù)的問題,主要是發(fā)掘組織中資源的特征和質(zhì)量。有效的數(shù)據(jù)分析可以了解機構(gòu)背后隱藏的真實的數(shù)據(jù)內(nèi)容、結(jié)構(gòu)和關(guān)系。有許多機構(gòu)、公司投入相當(dāng)多的經(jīng)費作有關(guān)用戶關(guān)系或信息系統(tǒng),嘗試整合各個單位、部門、用戶或產(chǎn)品相關(guān)的數(shù)據(jù)。同時,憑借數(shù)據(jù)分析可以監(jiān)控數(shù)據(jù)結(jié)構(gòu),將所有的信息與相關(guān)的數(shù)據(jù)庫做比對,同時還可以提高數(shù)據(jù)的價值,發(fā)現(xiàn)數(shù)據(jù)是否有不完整、不正確與混淆的地方。
1.2 數(shù)據(jù)清洗
為達(dá)到數(shù)據(jù)的高質(zhì)量化和提升用戶滿意度、降低機構(gòu)的危險性,必須通過校正、標(biāo)準(zhǔn)化與驗證檢測來強化數(shù)據(jù)的一致性、正確性與可信度,以作為決策的基礎(chǔ),進(jìn)而構(gòu)建一個有用、主動的信息系統(tǒng),提供正確的信息,以提高機構(gòu)的效率與競爭力。有效的數(shù)據(jù)質(zhì)量可對機構(gòu)環(huán)境有較好的認(rèn)識,并且降低無效的成本投入。
1.3 數(shù)據(jù)整合
數(shù)據(jù)整合的目的是為了創(chuàng)建數(shù)據(jù)的單一、戰(zhàn)略性視野(single,strategic view)。數(shù)據(jù)整合不良導(dǎo)致無法提供完整的影像給決策者,而會影響一個企業(yè)或組織的用戶關(guān)系管理(consumer relationship management,CRM)、企業(yè)資源管理(enterprise resource management,ERM)、數(shù)據(jù)倉庫及商業(yè)智能的原始想法。此外,數(shù)據(jù)整合并非僅是將數(shù)據(jù)匹配或鏈接,而是適時將新的數(shù)據(jù)加入數(shù)據(jù)庫中,并且確認(rèn)所匯入或合并的新數(shù)據(jù)屬于高質(zhì)量的數(shù)據(jù)。通過內(nèi)外部資源、電子資源、網(wǎng)絡(luò)資源等資源整合,實現(xiàn)圖書館全部館藏信息資源組成的發(fā)現(xiàn)與獲取。
1.4 數(shù)據(jù)提升
數(shù)據(jù)提升是指將內(nèi)在或外在的數(shù)據(jù)資源,應(yīng)用到本身的機構(gòu)或組織中,以達(dá)到數(shù)據(jù)的宏觀性。同時,增加現(xiàn)有數(shù)據(jù)的價值也是數(shù)據(jù)提升的方法之一,如增列封面、書摘、書評和社會化書簽等。
1.5 數(shù)據(jù)監(jiān)控
借助數(shù)據(jù)的監(jiān)控、核查功能,當(dāng)數(shù)據(jù)質(zhì)量出現(xiàn)下降現(xiàn)象時即刻提出警示,從而可以避免信息系統(tǒng)重復(fù)做無用功,并且憑借數(shù)據(jù)監(jiān)控與核查可隨時反應(yīng)數(shù)據(jù)的質(zhì)量。
2 數(shù)據(jù)質(zhì)量評價維度
2.1 準(zhǔn)確性
數(shù)據(jù)準(zhǔn)確性用于度量數(shù)據(jù)的正確性與精確度,數(shù)據(jù)庫收錄內(nèi)容的準(zhǔn)確性及客觀性,是否來源于學(xué)術(shù)性較強的權(quán)威機構(gòu),數(shù)據(jù)資源對學(xué)科的覆蓋率,評價指標(biāo)包括涵蓋性、完整性、獲取收集過程、測量誤差、校正和處理。
涵蓋性:包括對所提供的數(shù)據(jù)能針對參照母群體有明確的說明,確認(rèn)且紀(jì)錄數(shù)據(jù)來源不足或在事前定義的范圍中超出可接受范圍,以及數(shù)據(jù)的架構(gòu)可與外在及獨立數(shù)據(jù)庫比對。查全率標(biāo)引深度越大、邏輯性越好,查全率也就越高。
獲取與收集:獲取是指數(shù)據(jù)輸入依據(jù)有用性數(shù)據(jù)架構(gòu),且符合數(shù)據(jù)提供者的角度;收集是指不同的數(shù)據(jù)提供者將數(shù)據(jù)輸入類似數(shù)據(jù)庫中。出版社可視為數(shù)據(jù)提供者,圖書館將文獻(xiàn)數(shù)據(jù)制作成摘要即是數(shù)據(jù)采集,將數(shù)字化摘要匯集成數(shù)據(jù)庫即為數(shù)據(jù)收集。
完整性:是指數(shù)據(jù)的精確性和可靠性。它是應(yīng)防止數(shù)據(jù)庫中存在不符合語義規(guī)定的數(shù)據(jù)和防止因錯誤信息的輸入輸出造成無效操作或錯誤信息而提出的。數(shù)據(jù)完整性分為4類:實體完整性、域完整性、參照完整性、用戶定義的完整性。
測量誤差:數(shù)據(jù)發(fā)生錯誤很難用一個簡單的評估方法就能找出其復(fù)雜的原因。數(shù)據(jù)錯誤可區(qū)分為測量誤差、偏差與一致性3種;所謂測量誤差是指數(shù)據(jù)值與其真實值的差異,即數(shù)據(jù)效度;偏差即以系統(tǒng)性方式檢查所得數(shù)據(jù)值與真實值的差異程度;數(shù)據(jù)的一致性則在評估多次的測量下其變異次數(shù),可運用統(tǒng)計方法檢測。
校正:對不正確或遺失的數(shù)據(jù),以特定數(shù)值替代的過程。建立適當(dāng)?shù)男U龣C制是提高數(shù)據(jù)質(zhì)量的保證。
處理:對某一數(shù)據(jù)庫的數(shù)據(jù)為任何一個特定目的所執(zhí)行的檢視程序或流程的過程。數(shù)據(jù)處理的過程步驟應(yīng)包括數(shù)據(jù)加載、校正、聚類等。數(shù)據(jù)庫的系統(tǒng)、程序、操作與執(zhí)行對數(shù)據(jù)質(zhì)量的影響很大,所有數(shù)據(jù)處理的過程均要以紀(jì)錄為基礎(chǔ),由紀(jì)錄可容易的檢視程序的效度,若要做變更,紀(jì)錄可以讓改變執(zhí)行更為容易,并且數(shù)據(jù)處理過程有被測試,數(shù)據(jù)應(yīng)被儲存在安全處。
2.2 時效性
時效性是指相對當(dāng)前任務(wù)數(shù)據(jù)是最新數(shù)據(jù)的程度,用來考察數(shù)據(jù)的時間特性對應(yīng)用的滿足程度。數(shù)據(jù)從產(chǎn)生、發(fā)展、到消亡,有一個相對的有效期,不同類型的應(yīng)用對數(shù)據(jù)的時間特性有不同的要求,數(shù)據(jù)的提供、加載與分析運用的時間差越小越好,以使數(shù)據(jù)能夠被確切實時呈現(xiàn)。時效性可用數(shù)據(jù)更新及時、數(shù)據(jù)更新比例和臟數(shù)據(jù)比例等關(guān)聯(lián)關(guān)系來具體體現(xiàn),如數(shù)據(jù)庫收錄內(nèi)容的時間跨度、更新頻率、等待和響應(yīng)速度,以及與對應(yīng)紙本資源相比出版的及時性,評價指標(biāo)包括數(shù)據(jù)釋出時效性與數(shù)據(jù)記錄時效性。
釋出時效性:是確認(rèn)數(shù)據(jù)時間的重要因素,其測量方式是計算數(shù)據(jù)釋出時間與最后一次的時間點差距,其差距越短表示所釋出的數(shù)據(jù)呈現(xiàn)越接近目標(biāo)。數(shù)據(jù)的釋出時間對使用者而言有其特定價值意義,包含從數(shù)據(jù)庫中粹出數(shù)據(jù)的不定期、定期時間點,如年報等。
記錄時效性:維持高質(zhì)量的數(shù)據(jù)記錄最重要的一點是,當(dāng)使用者取用或匯集數(shù)據(jù),其數(shù)據(jù)是具有效用的,同時數(shù)據(jù)應(yīng)有相應(yīng)的時間記錄。
2.3 可比性
數(shù)據(jù)的可比性是指數(shù)據(jù)庫持續(xù)維持與其它數(shù)據(jù)庫的一致性與標(biāo)準(zhǔn)作業(yè)方式,如數(shù)據(jù)內(nèi)容與報告期限。數(shù)據(jù)比對有助于數(shù)據(jù)的詮釋、了解與維護(hù),同時,經(jīng)由類似數(shù)據(jù)的比對可有效的檢測數(shù)據(jù)的涵括性、編碼錯誤、無反應(yīng)等。數(shù)據(jù)可比性的評估有4項指標(biāo):數(shù)據(jù)概念標(biāo)準(zhǔn)、連結(jié)性、均等性與史實比對。
概念標(biāo)準(zhǔn):為使數(shù)據(jù)庫的數(shù)據(jù)能明確的界定,減少混淆現(xiàn)象,應(yīng)使用相同的數(shù)據(jù)概念定義,且數(shù)據(jù)概念標(biāo)準(zhǔn)應(yīng)時時做審查與修訂。數(shù)據(jù)概念標(biāo)準(zhǔn)應(yīng)包含其概念屬性,如名稱、類別、長度以及值域,是否標(biāo)準(zhǔn)化和開放性的系統(tǒng)和數(shù)據(jù)接口。
連結(jié):當(dāng)在使用數(shù)據(jù)鏈路時應(yīng)有隱私與保密指引,其內(nèi)容包括數(shù)據(jù)收集使用一致性的標(biāo)準(zhǔn),以及數(shù)據(jù)編碼具一致性。邏輯語義以及基于結(jié)構(gòu)化元數(shù)據(jù)構(gòu)建,支持遞進(jìn)式的深度檢索,直至獲取最小、最精準(zhǔn)的知識單元,如基于FRBR的關(guān)聯(lián)數(shù)據(jù)等。
均等:是指數(shù)據(jù)可從一種格式對應(yīng)到任何一種格式,錯誤的分類法必須做有明確的分析與調(diào)整,并有紀(jì)錄。
歷史比對:即將數(shù)據(jù)應(yīng)用趨勢圖、百分比、頻次比,或縱向分析做歷史資料的比對。
2.4 可用性
數(shù)據(jù)可用性是指讓使用者在應(yīng)用時易用、易懂且無障礙。由數(shù)據(jù)可用性的評估可以確認(rèn)數(shù)據(jù)的相關(guān)性與詮釋程度,同時也可確認(rèn)數(shù)據(jù)記錄的完整與無障礙,具有可達(dá)性、詳細(xì)說明、可理解三項評估指標(biāo)。表現(xiàn)在與讀者習(xí)慣的那些著名的檢索站點相似的風(fēng)格和成熟度,可視化知識地圖,更快更強更深的檢索,更優(yōu)化更人性化更可視化的顯示個性化交互式的體驗。
可達(dá)性:當(dāng)數(shù)據(jù)用于分析或制作報告時應(yīng)儲存于安全的文檔中,且為未來參照之用。根據(jù)數(shù)據(jù)使用者的目的與需求,數(shù)據(jù)可以不同的格式與版本建立。無論印刷/電子、元數(shù)據(jù)/全文、本地/遠(yuǎn)程資源,是否一站式獲取,爭取讓用戶用更少的點擊次數(shù)獲取更多的相關(guān)數(shù)據(jù)。
詳細(xì)說明:主要是給使用提供者充分的信息,同時亦可了解數(shù)據(jù)的質(zhì)量狀況是否符合其使用的需求,可以提供數(shù)據(jù)的收集方法、操作方式以及主要的限制條件等。
可理解:數(shù)據(jù)的結(jié)構(gòu)設(shè)計與潛在性限制是其主要影響因素。是否界面友好,檢索方法、界面術(shù)語容易理解和掌握,易學(xué)易用。
2.5 相關(guān)性
若要維持?jǐn)?shù)據(jù)的相關(guān)性則必須持續(xù)的與主要使用者或數(shù)據(jù)處理者聯(lián)系,以數(shù)據(jù)的適應(yīng)性與價值性作為評價指標(biāo)。
適應(yīng)性:是指它是否能根據(jù)使用者的需要,對現(xiàn)存的或未來信息的位置設(shè)定有足夠的彈性或明確的界定。因為需求與優(yōu)先級經(jīng)常改變,必須有反饋機制,以使數(shù)據(jù)使用者或擁有者能維持對現(xiàn)存或未來數(shù)據(jù)的關(guān)注與爭議,能夠?qū)⒔Y(jié)果集以更精準(zhǔn)、更可靠的相關(guān)度排序。
價值性:指圖書館信息服務(wù)對知識及其應(yīng)用的貢獻(xiàn)度,決定于其是否能夠滿足用戶的信息需求,以及是否能夠針對其用戶提供合適的服務(wù)。
3 圖書館信息服務(wù)數(shù)據(jù)質(zhì)量評價
以圖書館信息服務(wù)數(shù)據(jù)質(zhì)量影響因素構(gòu)建如圖1所示的評價指標(biāo)樹,指標(biāo)樹中包括準(zhǔn)確性、時效性、可比性、可用性與相關(guān)性5個層面;在準(zhǔn)確性層面又區(qū)分涵蓋、過程、完整、測量、校正和處理6項指標(biāo);時效性層面中以釋出時效性、紀(jì)錄時效作為指標(biāo);可比性層面則以概念標(biāo)準(zhǔn)、均等、連結(jié)性與歷史比對作為指標(biāo);可用性層面以可達(dá)性、詳細(xì)說明、可理解性作為指標(biāo);相關(guān)性層面以適應(yīng)性與價值性為指標(biāo);還可在各個指標(biāo)下設(shè)計若干項評估項目。請信息統(tǒng)計專家學(xué)者對其進(jìn)行內(nèi)容效度檢測,就評價內(nèi)容的重要性、適切性與清晰度進(jìn)行檢視,以5分法計算,1分表示完全不符合,5分表示完全符合,針對目前圖書館相關(guān)信息服務(wù)系統(tǒng)做測試,以了解與分析系統(tǒng)所提供的數(shù)據(jù)質(zhì)量,進(jìn)而修改與建立一有用、主動的圖書館信息服務(wù)系統(tǒng),提供正確的信息知識,提高信息服務(wù)效率與質(zhì)量。
4 結(jié)語
通過數(shù)據(jù)質(zhì)量的指標(biāo)評估,提高數(shù)據(jù)的準(zhǔn)確性、時效性、可比性、相關(guān)性和可用性,通過實踐不斷修訂與完善,進(jìn)而由數(shù)據(jù)的整合與分析建立信息主體,匯集發(fā)展成為知識架構(gòu),作為行動決策的參考依據(jù),從而改善圖書館信息服務(wù)質(zhì)量。