馬曉亭
〔摘要〕圖書(shū)館的大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨,大數(shù)據(jù)質(zhì)量問(wèn)題是影響圖書(shū)館大數(shù)據(jù)應(yīng)用的重要因素,而大數(shù)據(jù)清洗則是提高圖書(shū)館大數(shù)據(jù)質(zhì)量的主要手段。本文介紹了圖書(shū)館不清潔數(shù)據(jù)的類(lèi)型與產(chǎn)生原因,設(shè)計(jì)了基于大數(shù)據(jù)決策分析需求的圖書(shū)館大數(shù)據(jù)清洗系統(tǒng),該系統(tǒng)不僅可以提高大數(shù)據(jù)清洗的效率和精確度,而且大幅度降低了圖書(shū)館大數(shù)據(jù)決策分析的復(fù)雜度。
〔關(guān)鍵詞〕圖書(shū)館;決策分析;大數(shù)據(jù)清洗;系統(tǒng)設(shè)計(jì)
DOI:10.3969/j.issn.1008-0821.2016.09.018
〔中圖分類(lèi)號(hào)〕G25076〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2016)09-0107-05
〔Abstract〕The librarys era of big data is coming,data quality issues will result very important influence on big data applications of libraries,big data cleaning is one of the important methods to improve libraries data quality.This paper introduced the types of dirty data and reasons in libraries,and designed of big data cleaning system for library based on big data decision analysis needs,the system not only improved the efficiency and accuracy of big data cleaning,but also greatly reduced the complexity of big data decision analysis for library.
〔Key words〕library;decision analysis;big data cleaning;system design
當(dāng)前,圖書(shū)館已進(jìn)入大數(shù)據(jù)時(shí)代。隨著移動(dòng)互聯(lián)網(wǎng)、云計(jì)算和物聯(lián)網(wǎng)技術(shù)在圖書(shū)館中的廣泛應(yīng)用,圖書(shū)館可通過(guò)監(jiān)控和采集服務(wù)器運(yùn)行數(shù)據(jù)、讀者個(gè)體特征、閱讀行為數(shù)據(jù)、閱讀關(guān)系數(shù)據(jù)、閱讀終端數(shù)據(jù)等,實(shí)現(xiàn)了對(duì)圖書(shū)館服務(wù)模式和讀者閱讀需求的全面感知與預(yù)測(cè),大幅度提升了圖書(shū)館的服務(wù)能力和讀者閱讀滿意度。但是,隨著圖書(shū)館服務(wù)復(fù)雜度和服務(wù)模式多樣化的發(fā)展,其大數(shù)據(jù)環(huán)境呈現(xiàn)出“4V+1C”的特點(diǎn)(分別是數(shù)據(jù)體量巨大(Volume)、數(shù)據(jù)類(lèi)型繁多(Variety)、價(jià)值密度低(Value)、處理速度快(Velocity)和具有較強(qiáng)的復(fù)雜性(Complexity)),圖書(shū)館采集與存儲(chǔ)的原始大數(shù)據(jù)中混雜著許多不完整、錯(cuò)誤和重復(fù)的“不清潔”數(shù)據(jù),導(dǎo)致圖書(shū)館大數(shù)據(jù)存在著不一致、不完整性、低價(jià)值密度、不可控和不可用的特性[1]。圖書(shū)館如果一味強(qiáng)調(diào)提升IT基礎(chǔ)設(shè)施的大數(shù)據(jù)處理性能、數(shù)據(jù)分析方法的科學(xué)性、數(shù)據(jù)分析師的大數(shù)據(jù)素養(yǎng),而不通過(guò)大數(shù)據(jù)清洗有效提升數(shù)據(jù)的質(zhì)量和可用性,將會(huì)導(dǎo)致圖書(shū)館大數(shù)據(jù)應(yīng)用的收益率和數(shù)據(jù)決策科學(xué)性下降。
據(jù)美國(guó)普化永道會(huì)計(jì)事務(wù)所(Price Waterhouse Coopers Consulting,PWC)的研究表明,75%的被調(diào)查公司存在著因不清潔數(shù)據(jù)問(wèn)題而導(dǎo)致經(jīng)濟(jì)損失的現(xiàn)象,只有35%的被調(diào)查公司對(duì)自己的數(shù)據(jù)質(zhì)量充滿信心;在很多涉及數(shù)據(jù)倉(cāng)庫(kù)的項(xiàng)目中,數(shù)據(jù)清洗在開(kāi)發(fā)時(shí)間和整體預(yù)算方面所占的比例大概在30%~80%,而將不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行抽取和整合時(shí),可能會(huì)產(chǎn)生一些新的不清潔數(shù)據(jù)[2]。因此,如何制定和執(zhí)行安全、高效的數(shù)據(jù)清洗策略,實(shí)現(xiàn)對(duì)圖書(shū)館大數(shù)據(jù)資源的檢測(cè)、校驗(yàn)、修正、整合與分解,及時(shí)發(fā)現(xiàn)并糾正大數(shù)據(jù)中存在的錯(cuò)誤、缺失、異常和可疑數(shù)據(jù),確保圖書(shū)館大數(shù)據(jù)資源結(jié)構(gòu)完整、正確和無(wú)重復(fù),是關(guān)系圖書(shū)館大數(shù)據(jù)應(yīng)用與決策安全、科學(xué)、高效、經(jīng)濟(jì)和可控的重要問(wèn)題。
1圖書(shū)館大數(shù)據(jù)清洗的需求與挑戰(zhàn)
11大數(shù)據(jù)環(huán)境下數(shù)據(jù)清洗的需求發(fā)生變化
大數(shù)據(jù)時(shí)代,圖書(shū)館數(shù)據(jù)的結(jié)構(gòu)、類(lèi)型、規(guī)模和復(fù)雜度發(fā)生了巨大變化,其大數(shù)據(jù)內(nèi)容主要由IT服務(wù)系統(tǒng)運(yùn)營(yíng)日志與參數(shù)數(shù)據(jù)、用戶服務(wù)數(shù)據(jù)、讀者個(gè)體特征數(shù)據(jù)、讀者行為監(jiān)測(cè)與社會(huì)關(guān)系數(shù)據(jù)、閱讀終端運(yùn)行數(shù)據(jù)、視頻監(jiān)測(cè)數(shù)據(jù)和傳感器網(wǎng)絡(luò)數(shù)據(jù)等組成,這些數(shù)據(jù)具有海量、多類(lèi)型、高價(jià)值和處理速度快的大數(shù)據(jù)“4V”特點(diǎn),因此,與“小數(shù)據(jù)”時(shí)代圖書(shū)館的數(shù)據(jù)清洗需求有本質(zhì)區(qū)別。
大數(shù)據(jù)時(shí)代,非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)占據(jù)圖書(shū)館大數(shù)據(jù)總量的85%以上,圖書(shū)館數(shù)據(jù)清洗的重點(diǎn)已從“小數(shù)據(jù)”時(shí)代的標(biāo)準(zhǔn)化文本、數(shù)字、符號(hào)等結(jié)構(gòu)化數(shù)據(jù)為主,轉(zhuǎn)變?yōu)橐匀奈谋?、圖像、聲音、影視、超媒體等非結(jié)構(gòu)化復(fù)雜數(shù)據(jù)為核心[3]。其次,“小數(shù)據(jù)”時(shí)代圖書(shū)館數(shù)據(jù)清洗的主要對(duì)象是實(shí)例層的數(shù)據(jù),依據(jù)函數(shù)依賴(lài)等完整性約束條件對(duì)數(shù)據(jù)記錄進(jìn)行處理,而“大數(shù)據(jù)”時(shí)代則重點(diǎn)關(guān)注處理模式中數(shù)據(jù)屬性之間的語(yǔ)義關(guān)系。第三,圖書(shū)館數(shù)據(jù)清洗工具的效率、互操作性和可擴(kuò)展性,以及數(shù)據(jù)清洗工具描述性語(yǔ)言能否滿足數(shù)據(jù)清理中關(guān)鍵詞大致匹配的需要,是關(guān)系圖書(shū)館大數(shù)據(jù)清洗科學(xué)、高效、精確和經(jīng)濟(jì)的關(guān)鍵。
12圖書(shū)館大數(shù)據(jù)采集方式多樣性易導(dǎo)致數(shù)據(jù)結(jié)構(gòu)不完整當(dāng)前,為了提升讀者服務(wù)的科學(xué)性、實(shí)時(shí)性、可預(yù)測(cè)性和個(gè)性化水平,圖書(shū)館大數(shù)據(jù)應(yīng)用采取了全面采集、實(shí)時(shí)分析、動(dòng)態(tài)決策和評(píng)估反饋的原則,有效提升了圖書(shū)館大數(shù)據(jù)資源的價(jià)值密度、分析科學(xué)性和服務(wù)可靠性。圖書(shū)館大數(shù)據(jù)來(lái)源主要包括Web服務(wù)器日志數(shù)據(jù)、視頻監(jiān)控?cái)?shù)據(jù)、用戶管理系統(tǒng)數(shù)據(jù)、傳感器網(wǎng)絡(luò)數(shù)據(jù)和讀者滿意度反饋數(shù)據(jù)等,這些數(shù)據(jù)的數(shù)據(jù)采集來(lái)源、采集方式和數(shù)據(jù)模式標(biāo)準(zhǔn)不同,導(dǎo)致所采集的元數(shù)據(jù)存在著字段缺失、字段名和數(shù)據(jù)結(jié)構(gòu)前后不一致、數(shù)據(jù)被異常破壞等現(xiàn)象,嚴(yán)重影響了圖書(shū)館大數(shù)據(jù)結(jié)構(gòu)的完整性。其次,這些不完整大數(shù)據(jù)如涉及讀者的個(gè)體ID標(biāo)示、數(shù)據(jù)價(jià)值關(guān)鍵字段、信息集成模式的匹配,則會(huì)導(dǎo)致數(shù)據(jù)資源不可用或者大數(shù)據(jù)決策錯(cuò)誤。因此,如何科學(xué)、高效和準(zhǔn)確地發(fā)現(xiàn)圖書(shū)館大數(shù)據(jù)中的缺失字段,并在規(guī)定的時(shí)間內(nèi)對(duì)缺失字段進(jìn)行修復(fù),是圖書(shū)館確保大數(shù)據(jù)結(jié)構(gòu)完整的重要措施[4]。第三,圖書(shū)館對(duì)大數(shù)據(jù)資源庫(kù)查詢(xún)請(qǐng)求的科學(xué)、完整和可控性,是關(guān)系數(shù)據(jù)查詢(xún)結(jié)果清潔性的關(guān)鍵。因此,如何完善、修補(bǔ)不同來(lái)源和不同類(lèi)型的缺失數(shù)據(jù)字段,并有效挖掘其中蘊(yùn)含的知識(shí),是關(guān)系圖書(shū)館從不完整大數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)價(jià)值信息和保障知識(shí)服務(wù)效率的重要問(wèn)題。
13海量、重復(fù)的大數(shù)據(jù)嚴(yán)重降低了數(shù)據(jù)決策效率
為了提升大數(shù)據(jù)的價(jià)值總量,圖書(shū)館會(huì)利用多數(shù)據(jù)采集源多方位、多角度和不間斷地進(jìn)行相關(guān)大數(shù)據(jù)的采集。讀者個(gè)體特征和行為數(shù)據(jù),是圖書(shū)館進(jìn)行讀者閱讀需求預(yù)測(cè)、服務(wù)模式制定、服務(wù)滿意度評(píng)估和服務(wù)過(guò)程優(yōu)化的關(guān)鍵數(shù)據(jù),為了保證相關(guān)大數(shù)據(jù)采集的全面性、完整性、可用性和可靠性,圖書(shū)館會(huì)通過(guò)視頻監(jiān)控設(shè)備、服務(wù)器日志、傳感器網(wǎng)絡(luò)、移動(dòng)基站監(jiān)測(cè)設(shè)備、閱讀終端監(jiān)測(cè)設(shè)備等,盡可能全面地采集讀者相關(guān)大數(shù)據(jù),并描繪一幅完整、精確的讀者閱讀行為自畫(huà)像。多個(gè)不同類(lèi)型終端設(shè)備全方位、不間斷地采集同一讀者的個(gè)體大數(shù)據(jù),會(huì)導(dǎo)致讀者個(gè)體大數(shù)據(jù)采集過(guò)程低效率、重復(fù)和識(shí)別精度低,這大幅度增加了圖書(shū)館大數(shù)據(jù)處理、分析和決策的復(fù)雜度與系統(tǒng)資源損耗。因此,如何刪除圖書(shū)館采集的海量、重復(fù)大數(shù)據(jù),是關(guān)系圖書(shū)館大數(shù)據(jù)決策可用性和經(jīng)濟(jì)性的關(guān)鍵。
其次,隨著圖書(shū)館服務(wù)智能化和個(gè)性化水平的提升,機(jī)器人等人工智能技術(shù)已廣泛運(yùn)用到圖書(shū)館的管理與讀者服務(wù)中去。機(jī)器人通過(guò)深度學(xué)習(xí)技術(shù),可為讀者提供諸如閱讀導(dǎo)航、服務(wù)推薦、問(wèn)題解答、微博更新和聊天等服務(wù),實(shí)現(xiàn)了機(jī)器人與讀者的實(shí)時(shí)互動(dòng)與交流。但是,這些機(jī)器人產(chǎn)生的數(shù)據(jù)除具有動(dòng)態(tài)生成、海量、多類(lèi)型和低相關(guān)性的特點(diǎn)外,還存在著數(shù)據(jù)重復(fù)采集、標(biāo)示多樣和部分錯(cuò)誤的現(xiàn)象,因此,如何有效區(qū)分、清洗機(jī)器人產(chǎn)生的大數(shù)據(jù),將對(duì)圖書(shū)館在服務(wù)中實(shí)施讀者閱讀行為跟蹤、讀者閱讀需求分析、用戶精確畫(huà)像和科學(xué)服務(wù)決策產(chǎn)生極大影響[5]。
14圖書(shū)館對(duì)錯(cuò)誤大數(shù)據(jù)的識(shí)別與修正需求
圖書(shū)館大數(shù)據(jù)主要由數(shù)據(jù)中心IT服務(wù)系統(tǒng)配置參數(shù)與運(yùn)營(yíng)數(shù)據(jù)、用戶與服務(wù)管理數(shù)據(jù)、讀者個(gè)體行為與閱讀數(shù)據(jù)、傳感器網(wǎng)絡(luò)數(shù)據(jù)、服務(wù)資源數(shù)據(jù)、讀者閱讀反饋與滿意度評(píng)估數(shù)據(jù)等組成,這些數(shù)據(jù)的產(chǎn)生具有多數(shù)據(jù)來(lái)源、多采集模式、編碼與存儲(chǔ)復(fù)雜、數(shù)據(jù)清洗難度大的特點(diǎn),大幅增加了圖書(shū)館對(duì)錯(cuò)誤大數(shù)據(jù)識(shí)別與修正的難度。
隨著圖書(shū)館組織結(jié)構(gòu)和內(nèi)部業(yè)務(wù)關(guān)系復(fù)雜度的增長(zhǎng),圖書(shū)館員在向業(yè)務(wù)系統(tǒng)錄入元數(shù)據(jù)時(shí),可能存在著濫用縮寫(xiě)詞與慣用語(yǔ)、數(shù)據(jù)錄入錯(cuò)誤、數(shù)據(jù)中內(nèi)嵌信息錯(cuò)誤、重復(fù)記錄、丟失數(shù)據(jù)字段、拼寫(xiě)錯(cuò)誤、計(jì)量單位錯(cuò)誤和過(guò)時(shí)的數(shù)字編碼等問(wèn)題。同時(shí),圖書(shū)館當(dāng)前業(yè)務(wù)管理系統(tǒng)數(shù)據(jù)糾錯(cuò)的智能水平較低,不能完全識(shí)別與糾錯(cuò)數(shù)據(jù)錄入中存在的數(shù)據(jù)錯(cuò)輸成全角數(shù)字字符、字符串?dāng)?shù)據(jù)后面存在空格符、日期格式錯(cuò)誤與日期越界等。其次,OCR(光學(xué)字符識(shí)別)軟件在對(duì)印刷體文字轉(zhuǎn)換成為黑白點(diǎn)陣的圖像文件,以及通過(guò)識(shí)別軟件將圖像中的文字轉(zhuǎn)換成文本格式時(shí),OCR軟件的拒識(shí)率、誤識(shí)率、識(shí)別速度、用戶界面友好性、產(chǎn)品穩(wěn)定性和易用性等,也是關(guān)系圖書(shū)館數(shù)字化文獻(xiàn)資源加工正確率的重要因素。第三,近年來(lái),射頻識(shí)別(RFID)技術(shù)因其快速掃描、體積小、可重復(fù)使用、無(wú)線穿透性和無(wú)屏障閱讀等優(yōu)勢(shì),已廣泛應(yīng)用到智慧圖書(shū)館的構(gòu)建和讀者智慧服務(wù)中,有效實(shí)現(xiàn)了圖書(shū)館無(wú)線門(mén)禁的進(jìn)出管理、人員精確定位、區(qū)域定位管理、安全防衛(wèi)和圖書(shū)智能化存取等功能。由于RFID硬件設(shè)備易受數(shù)據(jù)傳輸距離、環(huán)境噪聲、地理環(huán)境、無(wú)線干擾等影響,導(dǎo)致RFID閱讀器存在著漏讀、多讀和不清潔讀等現(xiàn)象,如何識(shí)別與糾正RFID閱讀器在大數(shù)據(jù)采集過(guò)程中丟失、重復(fù)、模糊和錯(cuò)誤的數(shù)據(jù),已成為關(guān)系RFID應(yīng)用有效的關(guān)鍵[6]。
15圖書(shū)館大數(shù)據(jù)清洗需制定科學(xué)的行業(yè)規(guī)范和標(biāo)準(zhǔn)圖書(shū)館大數(shù)據(jù)具有海量、多類(lèi)型、高價(jià)值和處理快速的4“V”特征,據(jù)統(tǒng)計(jì),其結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)占據(jù)大數(shù)據(jù)總量的85%以上,且隨著圖書(shū)館服務(wù)模式多樣化和數(shù)據(jù)環(huán)境復(fù)雜度的不斷增長(zhǎng),其非結(jié)構(gòu)化數(shù)據(jù)占據(jù)大數(shù)據(jù)的總比例將快速上升,因此,大數(shù)據(jù)海量、多類(lèi)型和結(jié)構(gòu)復(fù)雜的特點(diǎn)給圖書(shū)館的數(shù)據(jù)管理帶來(lái)了很大困難。
不同類(lèi)型的圖書(shū)館在大數(shù)據(jù)采集源的結(jié)構(gòu)和數(shù)據(jù)庫(kù)類(lèi)型上差別巨大,導(dǎo)致不同圖書(shū)館在大數(shù)據(jù)的采集方式、組織結(jié)構(gòu)、存取方法和數(shù)據(jù)庫(kù)構(gòu)建類(lèi)型上有較大區(qū)別,即使是同一種數(shù)據(jù)的存儲(chǔ)也存在著多種不同標(biāo)準(zhǔn)和數(shù)據(jù)庫(kù)關(guān)系結(jié)構(gòu)。因此,制定統(tǒng)一的數(shù)據(jù)庫(kù)建設(shè)和數(shù)據(jù)管理、存取標(biāo)準(zhǔn),提升數(shù)據(jù)清洗工具與數(shù)據(jù)庫(kù)系統(tǒng)在數(shù)據(jù)端口、清洗規(guī)則和配置參數(shù)上的兼容性,是關(guān)系圖書(shū)館大數(shù)據(jù)高效清洗和多用戶共享的前提。
在實(shí)際的工程操作中,數(shù)據(jù)清洗通常會(huì)占據(jù)數(shù)據(jù)分析全過(guò)程50%~80%的時(shí)間,因此,依據(jù)國(guó)家標(biāo)準(zhǔn)構(gòu)建圖書(shū)館界的數(shù)據(jù)行業(yè)規(guī)范,是關(guān)系圖書(shū)館大數(shù)據(jù)開(kāi)放性和降低大數(shù)據(jù)決策成本的重要問(wèn)題。圖書(shū)館內(nèi)部不同部門(mén)之間也存在著大數(shù)據(jù)重復(fù)采集和數(shù)據(jù)標(biāo)準(zhǔn)、類(lèi)型不統(tǒng)一的問(wèn)題,我國(guó)圖書(shū)館界與其它行業(yè)或第三方運(yùn)營(yíng)商,在數(shù)據(jù)庫(kù)建設(shè)規(guī)范、數(shù)據(jù)傳輸接口、相關(guān)應(yīng)用程序上也存在較大差異,給大數(shù)據(jù)的清洗、共享和分析帶來(lái)了額外的負(fù)擔(dān)[7]。此外,圖書(shū)館對(duì)所屬大數(shù)據(jù)的安全性管理、讀者隱私大數(shù)據(jù)保護(hù)、大數(shù)據(jù)價(jià)值和可用性保證等,也大幅增加了圖書(shū)館大數(shù)據(jù)清洗過(guò)程的復(fù)雜度和成本投入。
2圖書(shū)館大數(shù)據(jù)清洗平臺(tái)的構(gòu)建與大數(shù)據(jù)清洗關(guān)鍵問(wèn)題21圖書(shū)館大數(shù)據(jù)清洗平臺(tái)的構(gòu)建
圖書(shū)館數(shù)據(jù)除具備大數(shù)據(jù)的4“V”特性外,還存在著諸如不清潔數(shù)據(jù)來(lái)源多元化、隨機(jī)產(chǎn)生、隱匿性強(qiáng)和噪聲過(guò)濾難度大的特點(diǎn)。因此,在圖書(shū)館大數(shù)據(jù)清洗系統(tǒng)的設(shè)計(jì)中,作者依據(jù)圖書(shū)館業(yè)務(wù)導(dǎo)向和大數(shù)據(jù)的信息流程,重點(diǎn)突出了大數(shù)據(jù)源分類(lèi)存儲(chǔ)、不清潔數(shù)據(jù)識(shí)別與發(fā)現(xiàn)、不清潔數(shù)據(jù)清洗和數(shù)據(jù)清洗流程控制等4個(gè)系統(tǒng)功能與流程的設(shè)計(jì),實(shí)現(xiàn)了從數(shù)據(jù)產(chǎn)生與存儲(chǔ)、不清潔數(shù)據(jù)發(fā)現(xiàn)與清洗、清洗有效性評(píng)估、評(píng)估結(jié)果對(duì)清洗流程的反饋控制等4個(gè)過(guò)程的大數(shù)據(jù)生命周期質(zhì)量管理[8]。所設(shè)計(jì)的圖書(shū)館大數(shù)據(jù)清洗系統(tǒng)功能結(jié)構(gòu)如圖1所示:圖1圖書(shū)館大數(shù)據(jù)清洗系統(tǒng)功能結(jié)構(gòu)圖
為了保證圖書(shū)館大數(shù)據(jù)存儲(chǔ)系統(tǒng)安全、高效、經(jīng)濟(jì)和可控,系統(tǒng)底層的大數(shù)據(jù)存儲(chǔ)庫(kù)依據(jù)大數(shù)據(jù)的來(lái)源、類(lèi)型、應(yīng)用對(duì)象和不清潔數(shù)據(jù)特點(diǎn),劃分為客戶管理元數(shù)據(jù)庫(kù)、系統(tǒng)配置與運(yùn)行數(shù)據(jù)庫(kù)、讀者服務(wù)數(shù)據(jù)庫(kù)和主數(shù)據(jù)庫(kù)等,這些數(shù)據(jù)庫(kù)的不清潔數(shù)據(jù)主要存在結(jié)構(gòu)不完整、數(shù)據(jù)重復(fù)、錯(cuò)誤和不一致的問(wèn)題。
不清潔數(shù)據(jù)發(fā)現(xiàn)系統(tǒng)平臺(tái)主要由大數(shù)據(jù)的獲取、數(shù)據(jù)完整性檢測(cè)、數(shù)據(jù)重復(fù)性檢測(cè)和錯(cuò)誤數(shù)據(jù)檢測(cè)4個(gè)功能模塊組成,通過(guò)對(duì)大數(shù)據(jù)變量的取值范圍、相關(guān)性、無(wú)效性、缺失值和重復(fù)值的判定,將從大數(shù)據(jù)源中發(fā)現(xiàn)、提取出的不清潔數(shù)據(jù)傳輸至不清潔數(shù)據(jù)清洗模塊。
不清潔數(shù)據(jù)清洗系統(tǒng)平臺(tái)是大數(shù)據(jù)清洗系統(tǒng)的核心,數(shù)據(jù)管理員在對(duì)不清潔數(shù)據(jù)產(chǎn)生的原因、存在形式和數(shù)據(jù)結(jié)構(gòu)復(fù)雜度進(jìn)行分析后,制定出科學(xué)的不清潔數(shù)據(jù)定義、評(píng)估、清洗和規(guī)則反饋優(yōu)化程序,依據(jù)數(shù)據(jù)清洗的實(shí)時(shí)性需求,控制系統(tǒng)實(shí)現(xiàn)不清潔數(shù)據(jù)的離線清洗和在線清洗,并對(duì)清洗后數(shù)據(jù)的完整性、有效性、一致性、準(zhǔn)確性和相關(guān)性等進(jìn)行判定,如果清洗結(jié)果不達(dá)標(biāo)則進(jìn)行不清潔數(shù)據(jù)的二次清洗[9]。
不清潔數(shù)據(jù)清洗管理平臺(tái)由圖書(shū)館元數(shù)據(jù)管理、大數(shù)據(jù)清洗模型管理、數(shù)據(jù)清洗安全性管理和質(zhì)量管理4個(gè)模塊組成,負(fù)責(zé)元數(shù)據(jù)存取、大數(shù)據(jù)清洗流程控制、數(shù)據(jù)清洗過(guò)程的數(shù)據(jù)安全性和不清潔數(shù)據(jù)清洗質(zhì)量的管理,可有效保證不清潔數(shù)據(jù)清洗過(guò)程安全、高效、經(jīng)濟(jì)、高價(jià)值和可用。
22關(guān)系圖書(shū)館大數(shù)據(jù)清洗質(zhì)量和數(shù)據(jù)可用性的關(guān)鍵問(wèn)題221有針對(duì)性地選取圖書(shū)館大數(shù)據(jù)的清洗對(duì)象
大數(shù)據(jù)是圖書(shū)館IT系統(tǒng)構(gòu)建、讀者管理和服務(wù)模式變革的直接決策依據(jù),大數(shù)據(jù)的價(jià)值總量、密度和清潔度等,直接關(guān)系圖書(shū)館大數(shù)據(jù)決策的科學(xué)性、效率、經(jīng)濟(jì)性和可用性。圖書(shū)館大數(shù)據(jù)具有海量和總量級(jí)數(shù)遞增的特點(diǎn),但是,不同類(lèi)型的大數(shù)據(jù)在數(shù)據(jù)價(jià)值總量、價(jià)值密度、分析可用性和與決策對(duì)象的相關(guān)性上差異較大,導(dǎo)致不同大數(shù)據(jù)在圖書(shū)館決策的科學(xué)性、精確度、可靠性和經(jīng)濟(jì)性上的影響度不同。因此,圖書(shū)館應(yīng)根據(jù)大數(shù)據(jù)決策的對(duì)象、內(nèi)容、精確度和經(jīng)濟(jì)性需求,有選擇地開(kāi)展大數(shù)據(jù)的清洗活動(dòng)。
個(gè)性化智慧服務(wù)是未來(lái)圖書(shū)館讀者服務(wù)的重要目標(biāo),而精確地判定讀者需求、圖書(shū)館未來(lái)服務(wù)資源總量和讀者閱讀情景,則是確保圖書(shū)館讀者個(gè)性化智慧服務(wù)內(nèi)容實(shí)時(shí)、精準(zhǔn)投放的前提。因此,圖書(shū)館對(duì)大數(shù)據(jù)清洗對(duì)象的選擇上,在保證大數(shù)據(jù)獲取難度可控、數(shù)據(jù)覆蓋率廣泛和具備一定的數(shù)據(jù)規(guī)模前提下,應(yīng)選取與讀者個(gè)性化智慧服務(wù)決策相關(guān)性較大的數(shù)據(jù),并重點(diǎn)清洗與讀者個(gè)性化智慧服務(wù)決策相關(guān)性較大的諸如讀者個(gè)體特征、閱讀歷史行為、閱讀實(shí)時(shí)興趣、個(gè)體移動(dòng)路徑、閱讀終端模式、讀者服務(wù)評(píng)價(jià)與滿意度反饋、系統(tǒng)未來(lái)服務(wù)資源總量與服務(wù)負(fù)載等數(shù)據(jù),才能在較小大數(shù)據(jù)清洗成本投入和降低清洗復(fù)雜度的前提下,大幅度提升圖書(shū)館大數(shù)據(jù)的價(jià)值密度與數(shù)據(jù)可用性。
222依據(jù)大數(shù)據(jù)決策實(shí)時(shí)性需求制定數(shù)據(jù)清洗策略
圖書(shū)館大數(shù)據(jù)決策可劃分為實(shí)時(shí)決策和離線決策兩部分。實(shí)時(shí)決策主要應(yīng)用于圖書(shū)館安全與服務(wù)即時(shí)管理、讀者在線服務(wù)需求實(shí)時(shí)判定、實(shí)時(shí)服務(wù)策略制定與服務(wù)推送、服務(wù)系統(tǒng)的實(shí)時(shí)評(píng)估與優(yōu)化等方面,要求大數(shù)據(jù)應(yīng)用平臺(tái)在較短的時(shí)間內(nèi)獲取、清洗和分析實(shí)時(shí)數(shù)據(jù),為大數(shù)據(jù)實(shí)時(shí)、動(dòng)態(tài)決策提供科學(xué)數(shù)據(jù)支持。實(shí)時(shí)決策對(duì)大數(shù)據(jù)獲取、傳輸、清洗、分析和決策過(guò)程的時(shí)效性要求較高,數(shù)據(jù)總量偏小、低清潔度和價(jià)值有限的實(shí)時(shí)大數(shù)據(jù)可能會(huì)影響圖書(shū)館實(shí)時(shí)決策的科學(xué)性和可用性。離線決策主要應(yīng)用于圖書(shū)館的宏觀戰(zhàn)略方案制定、用戶服務(wù)模式變革、服務(wù)有效性評(píng)估和服務(wù)市場(chǎng)競(jìng)爭(zhēng)環(huán)境分析等方面,這些離線決策雖然因?yàn)楹A看髷?shù)據(jù)的復(fù)雜分析而降低了決策的時(shí)效性,但決策結(jié)果具有較高的科學(xué)性、準(zhǔn)確度和可靠性。因此,圖書(shū)館必須依據(jù)大數(shù)據(jù)決策實(shí)時(shí)性需求制定相關(guān)的大數(shù)據(jù)清洗策略。
大數(shù)據(jù)清洗策略的制定應(yīng)以圖書(shū)館服務(wù)效率的提升和讀者閱讀滿意度為依據(jù),結(jié)合圖書(shū)館數(shù)據(jù)中心大數(shù)據(jù)應(yīng)用系統(tǒng)的資源總量和大數(shù)據(jù)清洗的負(fù)載量,依據(jù)決策內(nèi)容實(shí)現(xiàn)大數(shù)據(jù)清洗實(shí)時(shí)性、算法復(fù)雜度、精確度和可靠性的完美結(jié)合。大數(shù)據(jù)在線清洗對(duì)實(shí)時(shí)性的要求較強(qiáng),因此,圖書(shū)館應(yīng)完全記錄用戶服務(wù)流程線上的實(shí)際數(shù)據(jù),依據(jù)決策對(duì)象的重要性、實(shí)時(shí)性、相關(guān)性和服務(wù)收益需求,對(duì)需要清洗的數(shù)據(jù)進(jìn)行優(yōu)先級(jí)別劃分和系統(tǒng)資源分配,確保在線清洗結(jié)果的時(shí)效性、準(zhǔn)確性、可用性和可靠性綜合評(píng)估最優(yōu)。在離線大數(shù)據(jù)清洗策略的制定中,圖書(shū)館對(duì)數(shù)據(jù)清洗優(yōu)先級(jí)別的劃分,重點(diǎn)應(yīng)放在決策對(duì)象的重要性、服務(wù)的收益率、系統(tǒng)資源的損耗和實(shí)時(shí)性需求上,科學(xué)分配二級(jí)子指標(biāo)的權(quán)重比例,并依據(jù)讀者需求和圖書(shū)館服務(wù)模式變革進(jìn)行動(dòng)態(tài)反饋調(diào)控,不斷提升宏觀決策的科學(xué)性和可行性。
223圖書(shū)館大數(shù)據(jù)清洗質(zhì)量評(píng)估標(biāo)準(zhǔn)的幾個(gè)重要維度
圖書(shū)館對(duì)不清潔數(shù)據(jù)清洗質(zhì)量評(píng)估的科學(xué)性,既是關(guān)系圖書(shū)館數(shù)據(jù)價(jià)值保證和大數(shù)據(jù)決策可用性的關(guān)鍵,也是圖書(shū)館對(duì)數(shù)據(jù)清洗系統(tǒng)進(jìn)行反饋控制、優(yōu)化和完善的重要依據(jù),因此,必須選擇科學(xué)、全面、完整和可操作的大數(shù)據(jù)清洗質(zhì)量評(píng)估維度,才能確保大數(shù)據(jù)清洗過(guò)程高效、優(yōu)質(zhì)、快捷、經(jīng)濟(jì)和可控。
圖書(shū)館大數(shù)據(jù)清洗質(zhì)量評(píng)估體系的構(gòu)建應(yīng)堅(jiān)持評(píng)估指標(biāo)覆蓋面廣泛、指標(biāo)因子權(quán)重分配合理、評(píng)估系統(tǒng)開(kāi)放和易于操作的原則,所設(shè)計(jì)的圖書(shū)館大數(shù)據(jù)清洗質(zhì)量評(píng)估維度如表1所示:表1圖書(shū)館大數(shù)據(jù)清洗質(zhì)量評(píng)估維度表
編號(hào)維度內(nèi)容大數(shù)據(jù)清洗評(píng)估維度的描述1規(guī)范性數(shù)據(jù)的存在性、質(zhì)量及存儲(chǔ)標(biāo)準(zhǔn)2完整性與準(zhǔn)確性數(shù)據(jù)結(jié)構(gòu)完整度、準(zhǔn)確性和可用性3重復(fù)性數(shù)據(jù)在字段、記錄內(nèi)容或數(shù)據(jù)集外重復(fù)4一致性和同步性在不同數(shù)據(jù)庫(kù)、應(yīng)用和系統(tǒng)中的一致和同步5及時(shí)性和可用性非實(shí)時(shí)數(shù)據(jù)的清洗和價(jià)值可用性測(cè)量6可識(shí)別和相關(guān)性數(shù)據(jù)可理解、價(jià)值可測(cè)量和可相融程度7易用性和可維護(hù)性數(shù)據(jù)可訪問(wèn)、使用、更新、維護(hù)和管理的程度8數(shù)據(jù)價(jià)值覆蓋度數(shù)據(jù)在決策中的價(jià)值、對(duì)象和內(nèi)容覆蓋程度
此外,對(duì)圖書(shū)館大數(shù)據(jù)清洗質(zhì)量的評(píng)估,應(yīng)根據(jù)大數(shù)據(jù)決策過(guò)程對(duì)數(shù)據(jù)清潔度、價(jià)值密度和可用性的需求,動(dòng)態(tài)調(diào)整大數(shù)據(jù)清洗質(zhì)量評(píng)估維度表中各指標(biāo)的權(quán)重因子,增強(qiáng)大數(shù)據(jù)評(píng)估結(jié)果對(duì)大數(shù)據(jù)清洗系統(tǒng)的反饋控制與優(yōu)化功能,才能確保大數(shù)據(jù)清洗過(guò)程安全、高效、經(jīng)濟(jì)和可控。
224圖書(shū)館大數(shù)據(jù)清洗流程的設(shè)計(jì)
大數(shù)據(jù)清洗流程的科學(xué)性、數(shù)據(jù)流可控性和評(píng)估標(biāo)準(zhǔn)有效性,是關(guān)系圖書(shū)館大數(shù)據(jù)清洗流程安全、高效、快速和經(jīng)濟(jì)的重要問(wèn)題。因此,本文在圖書(shū)館大數(shù)據(jù)清洗流程的設(shè)計(jì)中,堅(jiān)持在保持大數(shù)據(jù)價(jià)值總量不變的前提下,以提升大數(shù)據(jù)的價(jià)值密度、可用性、決策實(shí)時(shí)性和降低大數(shù)據(jù)應(yīng)用成本為根本目標(biāo),有效保證了大數(shù)據(jù)決策的科學(xué)性、可靠性、實(shí)時(shí)性和經(jīng)濟(jì)性。圖書(shū)館大數(shù)據(jù)清洗流程如圖2所示:
圖書(shū)館大數(shù)據(jù)清洗系統(tǒng)首先對(duì)所接收的大數(shù)據(jù)進(jìn)行預(yù)處理,并將擬清洗的大數(shù)據(jù)導(dǎo)入數(shù)據(jù)清洗系統(tǒng),檢查元數(shù)據(jù)諸如字段解釋、數(shù)據(jù)來(lái)源、代碼表等內(nèi)容描述是否正確,初步統(tǒng)計(jì)擬清洗數(shù)據(jù)的類(lèi)型、結(jié)構(gòu)、實(shí)時(shí)性需求和存在模式問(wèn)題[10]。其次,在大數(shù)據(jù)的清洗中,應(yīng)根據(jù)大數(shù)據(jù)清洗的復(fù)雜度、大數(shù)據(jù)總量多少和流程相關(guān)性,按照去除和修補(bǔ)缺失大數(shù)據(jù)、去除重復(fù)和邏輯錯(cuò)誤大數(shù)據(jù)、異常大數(shù)據(jù)的檢測(cè)與處理、非需求大數(shù)據(jù)清洗、大數(shù)據(jù)的關(guān)聯(lián)性驗(yàn)證等步驟進(jìn)行,最后對(duì)已清洗大數(shù)據(jù)的質(zhì)量和可用性進(jìn)行評(píng)估,并將不符合大數(shù)據(jù)決策需求的不清潔數(shù)據(jù)傳輸至數(shù)據(jù)清洗輸入接口進(jìn)行二次清洗。
3結(jié)語(yǔ)
圖書(shū)館大數(shù)據(jù)具有多數(shù)據(jù)來(lái)源、多維度、多采集方法和多存儲(chǔ)模式的特點(diǎn),導(dǎo)致大數(shù)據(jù)中不可避免地存在著錯(cuò)誤、粗糙和不合時(shí)宜的非清潔數(shù)據(jù)。這些非清潔數(shù)據(jù)的存在,增加了圖書(shū)館大數(shù)據(jù)應(yīng)用的復(fù)雜度和數(shù)據(jù)決策成本,降低了圖書(shū)館對(duì)讀者閱讀需求的感知和對(duì)未來(lái)服務(wù)發(fā)展趨勢(shì)的預(yù)測(cè)能力,嚴(yán)重影響了圖書(shū)館服務(wù)決策從主觀經(jīng)驗(yàn)主義向大數(shù)據(jù)決策的轉(zhuǎn)變。因此,如何通過(guò)科學(xué)、高效、經(jīng)濟(jì)和實(shí)時(shí)的數(shù)據(jù)清洗,將非清潔數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量的干凈數(shù)據(jù),是圖書(shū)館增強(qiáng)大數(shù)據(jù)可用性、提升大數(shù)據(jù)決策效率和提升知識(shí)服務(wù)水平的關(guān)鍵。
圖書(shū)館大數(shù)據(jù)清洗是一個(gè)涉及面廣泛和影響力深遠(yuǎn)的工程,不科學(xué)的清洗流程和方法會(huì)導(dǎo)致數(shù)據(jù)清洗收益率下降,甚至產(chǎn)生新的不清潔數(shù)據(jù)而影響圖書(shū)館大數(shù)據(jù)決策科學(xué)性。因此,圖書(shū)館在大數(shù)據(jù)的采集、傳輸、存儲(chǔ)、標(biāo)準(zhǔn)化處理、分析和決策中,首先應(yīng)將數(shù)據(jù)質(zhì)量管理和數(shù)據(jù)清潔引入圖書(shū)館大數(shù)據(jù)生命周期的不同階段,從制度上規(guī)劃保證數(shù)據(jù)質(zhì)量管理有效和防止不清潔數(shù)據(jù)的產(chǎn)生。其次,應(yīng)加強(qiáng)對(duì)大數(shù)據(jù)融合、集成和演化流程的監(jiān)控與檢測(cè),防止因?yàn)榇髷?shù)據(jù)的產(chǎn)生、流入或數(shù)據(jù)更改而產(chǎn)生新的不清潔數(shù)據(jù)。第三,數(shù)據(jù)清洗過(guò)程會(huì)消耗大量的系統(tǒng)資源和大數(shù)據(jù)應(yīng)用成本,因此,圖書(shū)館數(shù)據(jù)清洗目標(biāo)的制定應(yīng)以大數(shù)據(jù)決策需求為依據(jù),不能人為制定過(guò)高的數(shù)據(jù)清洗清潔度目標(biāo)而導(dǎo)致大數(shù)據(jù)決策綜合收益下降。
參考文獻(xiàn)
[1]王曰芬,章成志,張蓓蓓,等.數(shù)據(jù)清洗研究綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2007,(12):50-56.
[2]吳向軍,姜云飛,凌應(yīng)標(biāo).基于STRIPS的領(lǐng)域知識(shí)提取策略[J].軟件學(xué)報(bào),2007,18(3):490-504.
[3]劉喜文,鄭昌興,王文龍,等.構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)過(guò)程中的數(shù)據(jù)清洗研究[J].圖書(shū)與情報(bào),2013,(5):22-28.
[4]蔣勛,劉喜文.大數(shù)據(jù)環(huán)境下面向知識(shí)服務(wù)的數(shù)據(jù)清洗研究[J].圖書(shū)與情報(bào),2013,(5):16-21.
[5]王永紅.定量專(zhuān)利分析的樣本選取與數(shù)據(jù)清洗[J].情報(bào)理論與實(shí)踐,2007,30(1):93-96.
[6]The Economist.Data,data,everywhere-A special report on managing information[EB/OL].http:∥www.economist.com/node/15557443,2016-05-16.
[7]黃沈?yàn)I,王海潔,朱振華.大數(shù)據(jù)云清洗系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].智能計(jì)算機(jī)與應(yīng)用,2015,5(3):88-90.
[8]FAN W,LI J,MA S,et al.Yu.CerFix:A system for cleaning data with certain fixes[J].PVLDB,2011,4(12):1375-1378.
[9]燕彩蓉,孫圭寧,高念高.基于擴(kuò)展樹(shù)狀知識(shí)庫(kù)的海量數(shù)據(jù)清洗算法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(28):146-148.
[10]張建中.數(shù)字資源整合與個(gè)性化服務(wù)中關(guān)鍵技術(shù)研究[D].長(zhǎng)沙:中南大學(xué)信息科學(xué)與工程學(xué)院,2008:43-45.
(本文責(zé)任編輯:郭沫含)