馬曉亭(蘭州財(cái)經(jīng)大學(xué)信息工程學(xué)院)
目前,圖書館界已進(jìn)入大數(shù)據(jù)時(shí)代。大數(shù)據(jù)具有數(shù)據(jù)體量巨大(Volume)、處理速度快(Velocity)、價(jià)值密度低(Value)、數(shù)據(jù)類型繁多(Variety)的4個(gè)“V”特性[1]。據(jù)統(tǒng)計(jì),大型數(shù)據(jù)庫(kù)中數(shù)據(jù)的錯(cuò)誤率約為5%[2],且數(shù)據(jù)清洗時(shí)間約占大數(shù)據(jù)分析總時(shí)間的60%~80%[3]。大量臟數(shù)據(jù)(Dirty data)的存在,嚴(yán)重影響了圖書館數(shù)據(jù)分析、知識(shí)發(fā)現(xiàn)和數(shù)據(jù)決策的正確與實(shí)效[4]。因此,如何精準(zhǔn)、高效、實(shí)時(shí)和低成本地完成對(duì)圖書館大數(shù)據(jù)庫(kù)中臟數(shù)據(jù)的清洗,是關(guān)系提升圖書館大數(shù)據(jù)價(jià)值密度和可用性,增強(qiáng)智慧服務(wù)決策科學(xué)性與讀者個(gè)性化服務(wù)質(zhì)量的關(guān)鍵。
臟數(shù)據(jù)(Dirty Data)是指源系統(tǒng)中的數(shù)據(jù)不在給定的范圍內(nèi),或?qū)τ趯?shí)際業(yè)務(wù)毫無意義,或是數(shù)據(jù)格式非法、過時(shí)、不完整、不準(zhǔn)確的任何類型的電子數(shù)據(jù),或者源系統(tǒng)中存在不規(guī)范的編碼或含糊的業(yè)務(wù)邏輯。圖書館中的臟數(shù)據(jù)可能是由于數(shù)據(jù)采集錯(cuò)誤、人員錄入錯(cuò)誤、未能定期更新數(shù)據(jù)或重復(fù)采集而產(chǎn)生的。臟數(shù)據(jù)的存在嚴(yán)重降低了圖書館大數(shù)據(jù)的價(jià)值密度、決策科學(xué)性和經(jīng)濟(jì)性,以及讀者個(gè)性化閱讀服務(wù)的智能化、實(shí)時(shí)性和專屬定制水平[5]。圖書館臟數(shù)據(jù)的類型與表現(xiàn)種類如表1所示。
表1 圖書館臟數(shù)據(jù)的類型與表現(xiàn)分類表
臟數(shù)據(jù)主要由缺失數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、數(shù)據(jù)重復(fù)、不一致數(shù)據(jù)、噪聲數(shù)據(jù)等5部分組成,是關(guān)系圖書館大數(shù)據(jù)決策智慧化水平和讀者個(gè)性化服務(wù)滿意度的關(guān)鍵。因此,圖書館必須加強(qiáng)臟數(shù)據(jù)的管理與清洗工作。
“摩爾定律”告訴我們,集成電路芯片上所集成電路的數(shù)目,每隔18個(gè)月就翻一番。同時(shí),微處理器的性能每隔18個(gè)月提高一倍,而價(jià)格下降一半。因此,數(shù)據(jù)采集與處理設(shè)備性能的提升和采購(gòu)價(jià)格的大幅下降,在提升了圖書館大數(shù)據(jù)獲取能力的同時(shí),有效降低了數(shù)據(jù)獲取的成本,支持圖書館全方位、不間斷地采集相關(guān)大數(shù)據(jù),最終提升了圖書館大數(shù)據(jù)庫(kù)的數(shù)據(jù)總價(jià)值與大數(shù)據(jù)決策的能力,但也導(dǎo)致圖書館大數(shù)據(jù)總量呈現(xiàn)指數(shù)級(jí)增長(zhǎng)和價(jià)值密度急劇下降的現(xiàn)象[6]。
圖書館主要通過視頻監(jiān)控設(shè)備、傳感器網(wǎng)絡(luò)、個(gè)人數(shù)字閱讀PDA、網(wǎng)絡(luò)服務(wù)器、視頻監(jiān)控設(shè)備等采集大數(shù)據(jù),所采集的數(shù)據(jù)除包括圖書館企業(yè)資源計(jì)劃數(shù)據(jù)、財(cái)務(wù)管理系統(tǒng)數(shù)據(jù)、數(shù)字文獻(xiàn)管理信息系統(tǒng)數(shù)據(jù)、讀者信息與服務(wù)管理系統(tǒng)數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)之外,還包括諸如網(wǎng)頁(yè)、文本、圖像、視頻、語音之類的非結(jié)構(gòu)型數(shù)據(jù),且非結(jié)構(gòu)化數(shù)據(jù)占據(jù)圖書館數(shù)據(jù)總量的80%以上,錯(cuò)綜復(fù)雜的數(shù)據(jù)采集對(duì)象、方式和環(huán)境是圖書館臟數(shù)據(jù)大量產(chǎn)生的主要原因。具體原因有以下幾方面。①圖書館通過大量的射頻識(shí)別(RFID)設(shè)備實(shí)現(xiàn)了對(duì)讀者身份認(rèn)證、個(gè)人移動(dòng)路徑、讀者地理位置信息、查閱管理和圖書館安全管控等數(shù)據(jù)的不間斷采集,物理電磁復(fù)雜環(huán)境和設(shè)備使用人員的不規(guī)范操作導(dǎo)致臟數(shù)據(jù)的產(chǎn)生[7]。②視頻監(jiān)控設(shè)備、傳感器網(wǎng)絡(luò)、個(gè)人數(shù)字閱讀PDA、網(wǎng)絡(luò)服務(wù)器、視頻監(jiān)控設(shè)備等大數(shù)據(jù)采集設(shè)備的標(biāo)準(zhǔn)化程度、設(shè)備故障、人為原因,以及異構(gòu)系統(tǒng)的系統(tǒng)兼容性、友好性與可操控性也是導(dǎo)致圖書館臟數(shù)據(jù)產(chǎn)生的原因。③所采集大數(shù)據(jù)的標(biāo)準(zhǔn)化、科學(xué)性、傳輸與存儲(chǔ)方法合理性、異構(gòu)系統(tǒng)的兼容性等,也是導(dǎo)致臟數(shù)據(jù)產(chǎn)生的重要因素。
1.3.1 將不規(guī)整數(shù)據(jù)轉(zhuǎn)化為規(guī)整數(shù)據(jù)
圖書館大數(shù)據(jù)采集終端設(shè)備存在著設(shè)備類型多樣、數(shù)據(jù)采集標(biāo)準(zhǔn)不統(tǒng)一的特點(diǎn),且設(shè)備網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)以分布式結(jié)構(gòu)存在,所采集的數(shù)據(jù)在數(shù)據(jù)結(jié)構(gòu)、類型和邏輯上呈現(xiàn)不規(guī)整的狀態(tài)。因此,必須依據(jù)圖書館大數(shù)據(jù)決策需求和讀者個(gè)性化智慧閱讀場(chǎng)景需要,通過科學(xué)的數(shù)據(jù)清洗流程對(duì)所采集的大數(shù)據(jù)在數(shù)據(jù)格式、標(biāo)準(zhǔn)、邏輯和處理流程上進(jìn)行統(tǒng)一,并對(duì)存在于規(guī)整數(shù)據(jù)中的隨機(jī)噪聲數(shù)據(jù)進(jìn)行平滑、過濾和刪除,只有這樣才能確保決策大數(shù)據(jù)高價(jià)值、標(biāo)準(zhǔn)化、可應(yīng)用和無差錯(cuò)。
1.3.2 對(duì)數(shù)據(jù)進(jìn)行審查和校驗(yàn)
圖書館在大數(shù)據(jù)的采集中,由于數(shù)據(jù)采集設(shè)備和用戶閱讀終端的多樣性,導(dǎo)致大數(shù)據(jù)庫(kù)中部分?jǐn)?shù)據(jù)呈現(xiàn)重復(fù)疊加的現(xiàn)象,這些重復(fù)數(shù)據(jù)不但增加了大數(shù)據(jù)庫(kù)的存儲(chǔ)負(fù)荷,也增加了大數(shù)據(jù)處理、分析和決策系統(tǒng)的應(yīng)用負(fù)擔(dān),最終導(dǎo)致圖書館大數(shù)據(jù)決策的準(zhǔn)確性、實(shí)時(shí)性、經(jīng)濟(jì)性和可控性降低。因此,必須有效刪除大數(shù)據(jù)庫(kù)中的重復(fù)數(shù)據(jù)。此外,圖書館不同的大數(shù)據(jù)決策分析對(duì)數(shù)據(jù)的類型、結(jié)構(gòu)和精確度要求不同,因此必須以圖書館大數(shù)據(jù)決策需求為依據(jù),在不影響數(shù)據(jù)一致性、精確性、完整性和有效性的前提下,通過對(duì)數(shù)據(jù)的審查和校驗(yàn)來消除數(shù)據(jù)異常,最終實(shí)現(xiàn)數(shù)據(jù)的集成、清洗與標(biāo)準(zhǔn)化。
1.3.3 標(biāo)準(zhǔn)化數(shù)據(jù)的格式與類型
圖書館大數(shù)據(jù)決策具有海量、實(shí)時(shí)、快速和動(dòng)態(tài)的需求,其大數(shù)據(jù)庫(kù)數(shù)據(jù)格式與類型標(biāo)準(zhǔn)化的程度直接關(guān)系大數(shù)據(jù)處理、挖掘、分析、機(jī)器學(xué)習(xí)、決策、可視化等流程的正確、實(shí)時(shí)和可用。因此,必須通過對(duì)大數(shù)據(jù)的科學(xué)分解、重組和標(biāo)準(zhǔn)化處理,才能得到標(biāo)準(zhǔn)、干凈、實(shí)時(shí)和連續(xù)的大數(shù)據(jù)資源[7]。
標(biāo)準(zhǔn)化數(shù)據(jù)所涉及的內(nèi)容主要包括數(shù)據(jù)來源統(tǒng)一、格式統(tǒng)一、類型統(tǒng)一、表現(xiàn)形式統(tǒng)一、單位度量統(tǒng)一、存儲(chǔ)與調(diào)用方式統(tǒng)一、處理與分析流程統(tǒng)一等方面,而其中最大的挑戰(zhàn)與難點(diǎn)是海量流數(shù)據(jù)格式與類型的統(tǒng)一。流數(shù)據(jù)具有海量、動(dòng)態(tài)、多源異構(gòu)、高維度和強(qiáng)時(shí)空相關(guān)性的特點(diǎn),是讀者個(gè)性化智慧閱讀實(shí)時(shí)服務(wù)最重要的決策依據(jù),其數(shù)據(jù)標(biāo)準(zhǔn)化水平的高低直接關(guān)系圖書館大數(shù)據(jù)決策的科學(xué)性、準(zhǔn)確性、高效性、即時(shí)性和個(gè)性化的程度,因此必須通過流數(shù)據(jù)的動(dòng)態(tài)、實(shí)時(shí)、快速和準(zhǔn)確清洗,才能保證讀者具有較高的個(gè)性化閱讀滿意度[8]。
圖書館大數(shù)據(jù)的清洗應(yīng)堅(jiān)持從數(shù)據(jù)的生命周期流程管理出發(fā),以圖書館大數(shù)據(jù)決策科學(xué)性、智慧性、實(shí)時(shí)性和經(jīng)濟(jì)性為目的,保證清洗后的大數(shù)據(jù)準(zhǔn)確、完整、一致、唯一、合理、適時(shí)、可用和高價(jià)值,如此才能夠?yàn)閳D書館大數(shù)據(jù)決策提供高質(zhì)量的數(shù)據(jù)支持。本文設(shè)計(jì)的基于大數(shù)據(jù)決策質(zhì)量反饋控制的圖書館大數(shù)據(jù)清洗流程如圖1所示。
圖1 基于大數(shù)據(jù)決策質(zhì)量反饋控制的圖書館大數(shù)據(jù)清洗流程圖
從圖書館大數(shù)據(jù)決策生命周期管理流程劃分,數(shù)據(jù)清洗的層次結(jié)構(gòu)可分為數(shù)據(jù)資源庫(kù)層、數(shù)據(jù)評(píng)估層、數(shù)據(jù)清洗層和數(shù)據(jù)決策質(zhì)量評(píng)估反饋控制層等四個(gè)層次。
(1)數(shù)據(jù)資源庫(kù)層是大數(shù)據(jù)資源的存儲(chǔ)層,依據(jù)圖書館大數(shù)據(jù)的結(jié)構(gòu)模式、價(jià)值屬性、決策類型、存儲(chǔ)方式和安全管理需求,分別以分布式存儲(chǔ)于資源計(jì)劃數(shù)據(jù)庫(kù)、數(shù)字文獻(xiàn)管理信息系統(tǒng)數(shù)據(jù)庫(kù)、讀者閱讀行為相關(guān)數(shù)據(jù)庫(kù)、圖書館管理與運(yùn)行數(shù)據(jù)庫(kù)、相關(guān)流數(shù)據(jù)庫(kù)中,同時(shí)確保大數(shù)據(jù)存儲(chǔ)安全、高性能、易擴(kuò)展和低功耗[9]。
(2)大數(shù)據(jù)評(píng)估層位于系統(tǒng)的第二層,負(fù)責(zé)完成大數(shù)據(jù)清洗前的數(shù)據(jù)質(zhì)量評(píng)估。數(shù)據(jù)評(píng)估層主要依據(jù)圖書館大數(shù)據(jù)應(yīng)用實(shí)際需求,對(duì)大數(shù)據(jù)的準(zhǔn)確性、一致性、時(shí)效性和完整性等四個(gè)方面進(jìn)行評(píng)估。評(píng)估內(nèi)容主要包括數(shù)據(jù)是否異常與錯(cuò)誤、格式是否統(tǒng)一、能否實(shí)時(shí)動(dòng)態(tài)反映當(dāng)前的系統(tǒng)服務(wù)與讀者閱讀情景、數(shù)據(jù)是否存在缺失值。數(shù)據(jù)評(píng)估標(biāo)準(zhǔn)是隨著圖書館大數(shù)據(jù)決策的智能化、個(gè)性化、實(shí)時(shí)性、經(jīng)濟(jì)性需求變化而動(dòng)態(tài)變化,數(shù)據(jù)質(zhì)量評(píng)估標(biāo)準(zhǔn)的高低與圖書館大數(shù)據(jù)清洗的效果成正比例關(guān)系,而與數(shù)據(jù)清洗系統(tǒng)的資源損耗和經(jīng)濟(jì)性成反比例關(guān)系。
(3)第三層是數(shù)據(jù)清洗層。首先,按照大數(shù)據(jù)標(biāo)準(zhǔn)化模式要求對(duì)缺失的數(shù)據(jù)內(nèi)容進(jìn)行填補(bǔ),以增強(qiáng)缺失大數(shù)據(jù)的價(jià)值屬性。其次,通過內(nèi)容清洗、數(shù)據(jù)邏輯錯(cuò)誤清洗、非需求數(shù)據(jù)清洗、數(shù)據(jù)關(guān)聯(lián)性驗(yàn)證、噪聲信號(hào)處理等操作,將清洗后的標(biāo)準(zhǔn)大數(shù)據(jù)傳輸給大數(shù)據(jù)應(yīng)用系統(tǒng),為圖書館大數(shù)據(jù)決策與讀者個(gè)性化智慧閱讀服務(wù)提供可靠的數(shù)據(jù)支持。數(shù)據(jù)清洗層的清洗規(guī)則和程度是隨著圖書館大數(shù)據(jù)應(yīng)用要求的不同而動(dòng)態(tài)變化的,復(fù)雜的數(shù)據(jù)清洗規(guī)則將會(huì)消耗更多的清洗時(shí)間和系統(tǒng)資源。因此,圖書館必須制定恰當(dāng)?shù)臄?shù)據(jù)清洗策略,才能確保清洗流程在效率、質(zhì)量、時(shí)間和成本方面的綜合評(píng)估結(jié)果最優(yōu)化[10]。
(4)反饋控制層為系統(tǒng)的第四層。經(jīng)過清洗的干凈數(shù)據(jù)傳輸?shù)酱髷?shù)據(jù)決策與應(yīng)用層并進(jìn)行數(shù)據(jù)的處理、分析、價(jià)值提取、大數(shù)據(jù)決策后,數(shù)據(jù)應(yīng)用質(zhì)量評(píng)估層結(jié)合讀者對(duì)個(gè)性化閱讀服務(wù)的滿意度,對(duì)大數(shù)據(jù)決策的科學(xué)性、有效性、經(jīng)濟(jì)性和實(shí)時(shí)性進(jìn)行評(píng)估,并將評(píng)估結(jié)果傳輸?shù)綌?shù)據(jù)清洗反饋控制模塊。如果評(píng)估結(jié)果不能滿足圖書館大數(shù)據(jù)決策需求,數(shù)據(jù)清洗反饋控制模塊則通過反饋控制來修改、完善大數(shù)據(jù)的評(píng)估標(biāo)準(zhǔn)和數(shù)據(jù)清洗規(guī)則,并通過二次清洗進(jìn)一步提高決策大數(shù)據(jù)的數(shù)據(jù)質(zhì)量、可用性和安全性。
2.2.1 大數(shù)據(jù)缺失值的清洗
圖書館大數(shù)據(jù)的缺失主要是由數(shù)據(jù)終端采集設(shè)備采集過程中的數(shù)據(jù)丟失、人工錄入數(shù)據(jù)失誤而發(fā)生的缺失,以及數(shù)據(jù)在傳輸、存儲(chǔ)和調(diào)度等過程中發(fā)生的缺失等情況造成。終端采集數(shù)據(jù)的缺失可通過對(duì)終端設(shè)備完善、升級(jí)和軟件優(yōu)化等措施避免,人工錄入數(shù)據(jù)缺失可通過錯(cuò)誤碼校驗(yàn)、必填項(xiàng)控制及人工補(bǔ)錄等方式完善。
在圖書館大數(shù)據(jù)應(yīng)用中,缺失值的存在是不可避免的,特別是當(dāng)缺失值非隨機(jī)出現(xiàn)且變量之間強(qiáng)相關(guān)性時(shí),不同的數(shù)據(jù)清理處理策略會(huì)得到不同的數(shù)據(jù)質(zhì)量。因此,對(duì)于無效缺失值或者低價(jià)值、低樣本比重、弱相關(guān)性的缺失值可以直接刪除缺失值。如果缺失數(shù)據(jù)呈現(xiàn)高價(jià)值、高相關(guān)性和多維度時(shí),可采取人工填補(bǔ)遺漏值、利用均值填補(bǔ)遺漏值、預(yù)測(cè)值填補(bǔ)遺漏值的方式,確保缺失數(shù)據(jù)完整、高價(jià)值、可應(yīng)用和可控制。
2.2.2 大數(shù)據(jù)格式與內(nèi)容的清洗
圖書館為了提升讀者個(gè)性化閱讀服務(wù)推送的精準(zhǔn)性、時(shí)效性,必須大量采集讀者每日的移動(dòng)路徑信息、閱讀終端信息、閱讀內(nèi)容信息、閱讀習(xí)慣信息、閱讀時(shí)間信息、地理位置信息等,通過對(duì)每日閱讀大數(shù)據(jù)的清洗和關(guān)聯(lián)計(jì)算,預(yù)測(cè)未來某日、某時(shí)間段讀者的閱讀需求,進(jìn)而自動(dòng)選擇相應(yīng)的閱讀內(nèi)容和閱讀模式向讀者實(shí)時(shí)推薦,來滿足讀者的閱讀需求和提升閱讀滿意度。圖書館采集的讀者個(gè)人閱讀數(shù)據(jù)具有多終端采集、多模式和離散性強(qiáng)的特點(diǎn)。因此,圖書館必須依據(jù)讀者個(gè)性化閱讀大數(shù)據(jù)決策的需求,將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化統(tǒng)一,并為不同的數(shù)據(jù)變量分配相應(yīng)的權(quán)重比例,通過每個(gè)數(shù)據(jù)點(diǎn)減去所有數(shù)據(jù)平均值的方法處理離群點(diǎn),防止離散數(shù)據(jù)偏差而導(dǎo)致大數(shù)據(jù)決策準(zhǔn)確性降低[11]。其次,對(duì)于多終端、多人員、多對(duì)象采集的數(shù)據(jù),應(yīng)通過格式清洗的方式確保數(shù)據(jù)在時(shí)間、日期、數(shù)值、全半角等顯示格式上一致,并刪除數(shù)據(jù)在格式內(nèi)容上不存在和多余的字符。再次,對(duì)于多終端采集或者人員多次錄入的重復(fù)數(shù)據(jù),可采取相同的關(guān)鍵信息匹配方法去重,也可以通過主鍵進(jìn)行去重。
2.2.3 異常大數(shù)據(jù)的清洗
在圖書館大數(shù)據(jù)應(yīng)用過程中,過度超出數(shù)據(jù)采集范圍區(qū)間、規(guī)律、規(guī)則,或者與平均數(shù)據(jù)差異較大的數(shù)據(jù)稱為異常數(shù)據(jù)。如,圖書館某日采集的一位讀者閱讀興趣數(shù)據(jù),該讀者的閱讀內(nèi)容、時(shí)間、習(xí)慣等與平日采集數(shù)據(jù)均值有較大差異性,這可能是他人利用該讀者的閱讀終端與用戶賬號(hào)登錄服務(wù)系統(tǒng)而產(chǎn)生的數(shù)據(jù),此類數(shù)據(jù)對(duì)判定該讀者的閱讀行為沒有參考價(jià)值和統(tǒng)計(jì)意義。又如,某日網(wǎng)絡(luò)監(jiān)控設(shè)備發(fā)現(xiàn)圖書館服務(wù)器TCP隊(duì)列滿,并且CPU負(fù)荷快速升高、內(nèi)存過載而導(dǎo)致服務(wù)器宕機(jī),嚴(yán)重影響了服務(wù)器的服務(wù)性能,而這種遠(yuǎn)遠(yuǎn)超出日常在線用戶平均數(shù)的統(tǒng)計(jì)大數(shù)據(jù)則十分有價(jià)值,通過大數(shù)據(jù)分析可以得出服務(wù)器可能正在受到DDoS攻擊,因此可由大數(shù)據(jù)決策系統(tǒng)構(gòu)建相應(yīng)的防御策略進(jìn)行防御[11]。對(duì)于異常大數(shù)據(jù)的清洗可以通過構(gòu)建相應(yīng)的規(guī)則庫(kù)實(shí)現(xiàn),規(guī)則庫(kù)必須以常識(shí)性規(guī)則、業(yè)務(wù)規(guī)則和數(shù)據(jù)關(guān)聯(lián)規(guī)則等進(jìn)行科學(xué)判定,而不是對(duì)大幅度偏離平均值的數(shù)據(jù)簡(jiǎn)單刪除或者修改。此外,異常大數(shù)據(jù)的清洗規(guī)則必須隨著大數(shù)據(jù)決策系統(tǒng)的智慧自主學(xué)習(xí)而動(dòng)態(tài)變化,并不斷提升數(shù)據(jù)清洗的智能和自動(dòng)化水平。
2.2.4 噪聲大數(shù)據(jù)的清洗
圖書館大數(shù)據(jù)采集具有多終端、多用戶、不間斷和全方位的特點(diǎn),圖書館大數(shù)據(jù)除具有大數(shù)據(jù)的4“V”特性外,還具備高維度、多變量數(shù)據(jù)、大規(guī)模和高增長(zhǎng)的特性。由于采集設(shè)備、方法、對(duì)象、時(shí)間、流程和軟件程序科學(xué)性的缺陷,所采集的大數(shù)據(jù)存在著錯(cuò)誤、失真、異常和無關(guān)的數(shù)據(jù),這些數(shù)據(jù)大幅度增加了數(shù)據(jù)存儲(chǔ)、處理、分析和決策的難度,也將大幅度影響決策大數(shù)據(jù)的收斂速度,降低圖書館大數(shù)據(jù)決策模型的科學(xué)性、準(zhǔn)確性和可靠性。因此,圖書館必須加強(qiáng)對(duì)噪聲數(shù)據(jù)的清洗[1]。①對(duì)于圖書館數(shù)據(jù)庫(kù)中存在的與大數(shù)據(jù)決策無關(guān),甚至明顯錯(cuò)誤的數(shù)據(jù),可由圖書館工作人員依據(jù)自身的業(yè)務(wù)知識(shí)人工處理即可。②對(duì)于正態(tài)分布的大數(shù)據(jù),可以利用3個(gè)標(biāo)準(zhǔn)差原則進(jìn)行去噪,或使用四分位差進(jìn)行去噪。③對(duì)于偏態(tài)分布數(shù)據(jù)可以采用分箱處理的方法,按照屬性值劃分子區(qū)間。如果一個(gè)屬性值處于某個(gè)子區(qū)間范圍內(nèi),就把該屬性值放進(jìn)這個(gè)子區(qū)間所代表的“箱子”內(nèi)。把待處理的數(shù)據(jù)按照一定的規(guī)則放進(jìn)一些箱子中,考察每一個(gè)箱子中的數(shù)據(jù),采用某種方法分別對(duì)各個(gè)箱子中的數(shù)據(jù)進(jìn)行規(guī)則處理,最后再對(duì)每個(gè)箱子中的數(shù)據(jù)進(jìn)行平滑處理。④圖書館員可將類型、結(jié)構(gòu)和決策對(duì)象相同的數(shù)據(jù),按照數(shù)據(jù)的內(nèi)在性質(zhì)將數(shù)據(jù)分成一些聚合類,每一聚合類中的元素盡可能具有相同的特性,而不同聚合類之間的特性差別盡可能大。這些聚類集合之外的數(shù)據(jù)即為噪聲數(shù)據(jù),應(yīng)對(duì)這些孤立點(diǎn)進(jìn)行刪除或替換。⑤對(duì)于兩個(gè)或者多個(gè)相關(guān)變量數(shù)據(jù),可通過構(gòu)造回歸函數(shù)的方式,確保該函數(shù)能夠更大程度地滿足兩個(gè)變量之間的關(guān)系,并使用這個(gè)函數(shù)來平滑數(shù)據(jù)。
為了精準(zhǔn)、高效、實(shí)時(shí)和低成本地完成圖書館大數(shù)據(jù)的清洗工作,圖書館首先必須認(rèn)識(shí)到數(shù)據(jù)治理工作的重要性、復(fù)雜性和長(zhǎng)期性,應(yīng)構(gòu)建標(biāo)準(zhǔn)化、動(dòng)態(tài)和持續(xù)優(yōu)化的數(shù)據(jù)清洗流程,同時(shí)根據(jù)圖書館大數(shù)據(jù)決策系統(tǒng)資源配置實(shí)際,制定恰當(dāng)?shù)拇髷?shù)據(jù)清洗流程與標(biāo)準(zhǔn),并依據(jù)大數(shù)據(jù)應(yīng)用決策需求變化對(duì)數(shù)據(jù)清洗算法、數(shù)據(jù)清洗對(duì)象、清洗精確度進(jìn)行完善與優(yōu)化,才能保證圖書館在大數(shù)據(jù)分析決策需求、系統(tǒng)資源損耗、決策實(shí)時(shí)性和總體經(jīng)濟(jì)性上最優(yōu);其次,圖書館必須堅(jiān)持人工清洗和設(shè)備自動(dòng)化清洗相結(jié)合的原則,利用數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘、語義分析或預(yù)定義的清理規(guī)則,提升對(duì)特殊臟數(shù)據(jù)清洗的效率與準(zhǔn)確性;再次,圖書館在數(shù)據(jù)清洗關(guān)系模型的設(shè)計(jì)中,應(yīng)堅(jiān)持簡(jiǎn)單、高效和低系統(tǒng)資源損耗的原則,實(shí)現(xiàn)數(shù)據(jù)清洗模型的復(fù)雜性、資源損耗率、時(shí)效性和數(shù)據(jù)分析結(jié)果準(zhǔn)確性之間的最佳平衡。