劉金哲(國(guó)家圖書(shū)館)
2013年被許多媒體和專(zhuān)家稱為“大數(shù)據(jù)元年”,互聯(lián)網(wǎng)公司和其他各個(gè)行業(yè)開(kāi)始紛紛投入資金和技術(shù)開(kāi)展大數(shù)據(jù)的研究和應(yīng)用。2015年,國(guó)務(wù)院印發(fā)了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》(國(guó)發(fā)〔2015〕50號(hào))將大數(shù)據(jù)的戰(zhàn)略意義提升到政府層面。目前,應(yīng)用大數(shù)據(jù)進(jìn)行分析預(yù)測(cè)和輔助決策較多的領(lǐng)域包括公共服務(wù)、商業(yè)分析、企業(yè)管理、金融、娛樂(lè)和個(gè)人服務(wù)等。[1]大數(shù)據(jù)在各行業(yè)的應(yīng)用,促進(jìn)了行業(yè)的融合發(fā)展和模式創(chuàng)新。目前,除了互聯(lián)網(wǎng)、電商等領(lǐng)域有比較成功的大數(shù)據(jù)應(yīng)用案例外,其他行業(yè)仍處于探索的初級(jí)階段,實(shí)際落地還存在顯著的瓶頸。因此,圖書(shū)館應(yīng)從戰(zhàn)略層面認(rèn)識(shí)大數(shù)據(jù),促進(jìn)大數(shù)據(jù)與實(shí)際業(yè)務(wù)的深度結(jié)合,推動(dòng)圖書(shū)館決策、管理、服務(wù)、創(chuàng)新能力的不斷提升。
對(duì)大數(shù)據(jù)理念的認(rèn)識(shí)不深入、數(shù)據(jù)基礎(chǔ)的缺失以及管理方式無(wú)法迅速向適應(yīng)大數(shù)據(jù)需求的方式轉(zhuǎn)換等原因?qū)е庐?dāng)前大數(shù)據(jù)解決方案很難和具體行業(yè)的實(shí)際應(yīng)用深度結(jié)合。
筆者在招標(biāo)與采購(gòu)網(wǎng)以“大數(shù)據(jù)”為關(guān)鍵詞進(jìn)行搜索,僅2019年1月1日至8月21日,發(fā)布的招標(biāo)信息就有8,045項(xiàng),但大數(shù)據(jù)項(xiàng)目的實(shí)施結(jié)果卻不容樂(lè)觀:2016年,Gartner估算約60%的大數(shù)據(jù)項(xiàng)目都會(huì)失?。灰荒旰?,Gartner分析師Nick表示,實(shí)際大數(shù)據(jù)項(xiàng)目失敗率接近85%。[2]當(dāng)前,大多數(shù)大數(shù)據(jù)項(xiàng)目只實(shí)現(xiàn)了數(shù)據(jù)采集和數(shù)據(jù)呈現(xiàn),如對(duì)指定數(shù)據(jù)源的數(shù)據(jù)進(jìn)行抓取、匯總,再進(jìn)一步根據(jù)某個(gè)場(chǎng)景或者主題計(jì)算變化曲線,有些基于大數(shù)據(jù)的聚合平臺(tái)也只是將網(wǎng)絡(luò)上的相關(guān)信息整合成一個(gè)新的信息源,然后以推送或者訂閱的方式提供給用戶。同時(shí),目前興建的大數(shù)據(jù)中心更多地還停留在“建機(jī)房、上設(shè)備、堆數(shù)據(jù)”的階段,[3]很多數(shù)據(jù)中心因?yàn)槿狈\(yùn)營(yíng)經(jīng)驗(yàn)而處于閑置狀態(tài),但又有很多城市仍在斥巨資投建數(shù)據(jù)中心,而無(wú)法做到真正將數(shù)據(jù)應(yīng)用于服務(wù)。
豐富的數(shù)據(jù)源是大數(shù)據(jù)項(xiàng)目實(shí)施的基本前提。大數(shù)據(jù)項(xiàng)目80%的時(shí)間和經(jīng)費(fèi)都花在數(shù)據(jù)的準(zhǔn)備工作上,其中多源數(shù)據(jù)的融合是最耗費(fèi)資源的任務(wù)之一。隨著各行各業(yè)信息化程度越來(lái)越高,理論上來(lái)說(shuō)會(huì)有很多數(shù)據(jù),但真正進(jìn)行數(shù)據(jù)調(diào)研和分析時(shí)會(huì)發(fā)現(xiàn)數(shù)據(jù)的收集和利用、特別是高質(zhì)量數(shù)據(jù)的獲取是非常困難的。① 早期建設(shè)的信息化系統(tǒng)缺乏對(duì)過(guò)程數(shù)據(jù)的記錄,或者系統(tǒng)管理人員缺乏對(duì)過(guò)往日志信息、數(shù)據(jù)的保存,因此,獲取到的數(shù)據(jù)都是項(xiàng)目開(kāi)始之后的數(shù)據(jù),導(dǎo)致“海量”只停留在理論。② 數(shù)據(jù)增長(zhǎng)的速度過(guò)快,保存和管理數(shù)據(jù)都超出一般運(yùn)維管理的范疇,這是影響大數(shù)據(jù)項(xiàng)目實(shí)施成效的關(guān)鍵因素。③ 數(shù)據(jù)時(shí)效性差,許多業(yè)務(wù)統(tǒng)計(jì)數(shù)據(jù)匯集頻率低,有些需要人工填寫(xiě)表單或者導(dǎo)入報(bào)表,導(dǎo)致大數(shù)據(jù)項(xiàng)目的實(shí)施效果不盡人意。
數(shù)據(jù)孤島是大數(shù)據(jù)發(fā)展過(guò)程中面臨的共性問(wèn)題。不同來(lái)源的數(shù)據(jù)依附于不同的平臺(tái)、存儲(chǔ)在不同地方、歸屬不同部門(mén),導(dǎo)致數(shù)據(jù)匯集困難、無(wú)法有效流通。首先,數(shù)據(jù)來(lái)源比較雜。一個(gè)機(jī)構(gòu)通常會(huì)建設(shè)或者購(gòu)買(mǎi)多套系統(tǒng)來(lái)滿足不同的業(yè)務(wù)需求,這些系統(tǒng)一般各自獨(dú)立或者以松耦合的方式存在,系統(tǒng)平臺(tái)架構(gòu)各異、功能也不盡相同,多數(shù)系統(tǒng)都設(shè)置了訪問(wèn)權(quán)限和保護(hù)措施,形成了一個(gè)個(gè)的孤島,為數(shù)據(jù)交互共享帶來(lái)了很大障礙,直接影響大數(shù)據(jù)項(xiàng)目實(shí)施的效率和效果。其次,收集數(shù)據(jù)標(biāo)準(zhǔn)問(wèn)題。收集到的數(shù)據(jù)原始記錄的格式和載體不同,導(dǎo)致很多數(shù)據(jù)無(wú)法直接利用,需要轉(zhuǎn)化或者清洗。再者,數(shù)據(jù)歸屬問(wèn)題。大數(shù)據(jù)項(xiàng)目不單是信息技術(shù)部門(mén)的職責(zé),人事、財(cái)務(wù)等各部門(mén)都是數(shù)據(jù)的生產(chǎn)者和持有者,都在大數(shù)據(jù)的運(yùn)籌體系中,但目前國(guó)內(nèi)機(jī)構(gòu)管理體系呈現(xiàn)條塊化,數(shù)據(jù)持有者之間很難完全進(jìn)行數(shù)據(jù)開(kāi)放和共享。
(1)技術(shù)方面。當(dāng)前數(shù)據(jù)處理的技術(shù)和工具已經(jīng)落地,但數(shù)據(jù)分析尚且不成熟。數(shù)據(jù)分析以產(chǎn)生決策智能為目標(biāo),提取、融合、梳理多種數(shù)據(jù)源中的相關(guān)數(shù)據(jù),將其整合成分析數(shù)據(jù)集,數(shù)據(jù)集可隨數(shù)據(jù)源的變化重組、調(diào)整和更新。這些環(huán)節(jié)需要通過(guò)包括數(shù)學(xué)、經(jīng)濟(jì)學(xué)、社會(huì)學(xué)、計(jì)算機(jī)科學(xué)和管理科學(xué)在內(nèi)的多學(xué)科進(jìn)行交叉研究,是當(dāng)前大數(shù)據(jù)項(xiàng)目的實(shí)施機(jī)構(gòu)和服務(wù)提供方都面臨的一個(gè)瓶頸。
(2)市場(chǎng)方面。近年來(lái),Hadoop等大數(shù)據(jù)處理軟件平臺(tái)發(fā)展比較成熟且在很多項(xiàng)目中得到了應(yīng)用,相關(guān)產(chǎn)業(yè)已經(jīng)在美國(guó)初步形成。隨著數(shù)據(jù)總量的飛速增長(zhǎng)及市場(chǎng)對(duì)數(shù)據(jù)分析利用的需求,又出現(xiàn)了以Spark為代表的新型大數(shù)據(jù)計(jì)算平臺(tái),使大規(guī)模的數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)可以更加高效地執(zhí)行。我國(guó)大數(shù)據(jù)產(chǎn)品市場(chǎng)基礎(chǔ)薄弱,總體上以跟隨為主,難以滿足大規(guī)模應(yīng)用的需求。部分大型互聯(lián)網(wǎng)公司提供的產(chǎn)品或者解決方案相對(duì)比較落地,如阿里云的一站式大數(shù)據(jù)平臺(tái),覆蓋了企業(yè)數(shù)倉(cāng)、商業(yè)智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化等領(lǐng)域,可以提供數(shù)據(jù)采集、數(shù)據(jù)深度融合、計(jì)算和挖掘服務(wù),并通過(guò)可視化工具進(jìn)行個(gè)性化的數(shù)據(jù)分析和展現(xiàn),但是需要捆綁阿里云并具備一定的技術(shù)基礎(chǔ)才能使用,且這類(lèi)大數(shù)據(jù)平臺(tái)或者產(chǎn)品的價(jià)格不菲,還要根據(jù)實(shí)際業(yè)務(wù)需求進(jìn)行集成和二次開(kāi)發(fā)服務(wù)。
大數(shù)據(jù)項(xiàng)目實(shí)施過(guò)程中,面臨數(shù)據(jù)存儲(chǔ)和訪問(wèn)安全的挑戰(zhàn),可以通過(guò)建立大數(shù)據(jù)使用規(guī)范和安全標(biāo)準(zhǔn)、在數(shù)據(jù)提供訪問(wèn)時(shí)做好訪問(wèn)權(quán)限控制等措施應(yīng)對(duì)。同時(shí),大數(shù)據(jù)項(xiàng)目也不可避免地會(huì)面臨用戶隱私泄露問(wèn)題。通過(guò)大數(shù)據(jù)挖掘分析用戶需求,就必須要跟蹤、分析、挖掘用戶訪問(wèn)行為、使用傾向等信息,導(dǎo)致暴露用戶自身不為“外人”所知的信息,這也是實(shí)施大數(shù)據(jù)項(xiàng)目時(shí)所面臨的共同問(wèn)題。
大數(shù)據(jù)與圖書(shū)館的結(jié)合是必然的。一是因?yàn)閳D書(shū)館行業(yè)對(duì)信息技術(shù)有著其他行業(yè)不可比的敏感性和依賴性。從圖書(shū)館集成系統(tǒng)到電子館藏到圖書(shū)館新形態(tài),都是圖書(shū)館不斷與新技術(shù)深度結(jié)合的產(chǎn)物。二是因?yàn)閿?shù)字圖書(shū)館本身就是一個(gè)龐大的數(shù)據(jù)源。除了圖書(shū)館本身大量的館藏和流通信息外,用戶在訪問(wèn)和使用數(shù)字圖書(shū)館時(shí)會(huì)不斷產(chǎn)生大量信息資源。
圖書(shū)館中的數(shù)據(jù)主要有以下4種類(lèi)型。① 資源數(shù)據(jù)。圖書(shū)館擁有大量的由紙質(zhì)圖書(shū)轉(zhuǎn)換的數(shù)字資源、數(shù)據(jù)庫(kù)資源、聲/圖/視頻影像資源,這些資源以及描述這些資源的元數(shù)據(jù)是圖書(shū)館大數(shù)據(jù)的重要組成部分,且增長(zhǎng)速度較快。② 業(yè)務(wù)數(shù)據(jù),即圖書(shū)館在常規(guī)運(yùn)行過(guò)程中產(chǎn)生的各類(lèi)業(yè)務(wù)統(tǒng)計(jì)數(shù)據(jù)。對(duì)這類(lèi)數(shù)據(jù)進(jìn)行對(duì)比分析可以了解圖書(shū)館整體服務(wù)情況和發(fā)展水平、運(yùn)營(yíng)狀態(tài),為制定科學(xué)、可持續(xù)發(fā)展的政策提供支撐。③ 用戶數(shù)據(jù)。隨著圖書(shū)館服務(wù)方式的多樣化,除了常規(guī)的到館讀者和辦卡讀者外,還增加了實(shí)名讀者、互聯(lián)網(wǎng)用戶、手機(jī)用戶等服務(wù)對(duì)象,以及這些服務(wù)對(duì)象的屬性特征、群體特征、社會(huì)特征等信息。④ 服務(wù)數(shù)據(jù),主要指讀者使用圖書(shū)館資源和服務(wù)的過(guò)程中產(chǎn)生的大量行為記錄,如瀏覽歷史、借閱數(shù)據(jù)、網(wǎng)站點(diǎn)擊數(shù)據(jù)、館藏使用情況等。
筆者在中國(guó)知網(wǎng)學(xué)術(shù)期刊全文數(shù)據(jù)庫(kù)中以“圖書(shū)館”“大數(shù)據(jù)”為檢索詞進(jìn)行主題搜索,截至2019年7月,共檢索出3,409篇文獻(xiàn)(見(jiàn)下表)。
表 2013-2019年我國(guó)圖書(shū)館和大數(shù)據(jù)相關(guān)文獻(xiàn)
由表可知,我國(guó)有關(guān)圖書(shū)館大數(shù)據(jù)的研究成果自2013年開(kāi)始增多,研究?jī)?nèi)容主要集中在大數(shù)據(jù)時(shí)代圖書(shū)館進(jìn)行服務(wù)創(chuàng)新的必要性、大數(shù)據(jù)應(yīng)用于圖書(shū)館可以改進(jìn)的服務(wù)以及改進(jìn)方式等,關(guān)于大數(shù)據(jù)分析技術(shù)和應(yīng)用實(shí)踐的研究仍然比較粗淺。綜合這些研究成果,大數(shù)據(jù)在圖書(shū)館中主要有以下應(yīng)用場(chǎng)景。① 資源整合和開(kāi)放。支持結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理,支持跨平臺(tái)、異質(zhì)文檔的整合,進(jìn)而開(kāi)放集成網(wǎng)絡(luò)環(huán)境下的各類(lèi)數(shù)字內(nèi)容。② 提供決策支撐。通過(guò)大數(shù)據(jù)對(duì)業(yè)務(wù)發(fā)展趨勢(shì)和水平進(jìn)行分析,進(jìn)而優(yōu)化圖書(shū)館的業(yè)務(wù)流程,為圖書(shū)館發(fā)展規(guī)劃、服務(wù)政策調(diào)整提供決策支持。③ 建立更加良好的用戶體驗(yàn)。對(duì)讀者行為信息進(jìn)行分析挖掘,了解讀者對(duì)資源和服務(wù)的偏好及其變化規(guī)律,進(jìn)而指導(dǎo)圖書(shū)館提供個(gè)性化、特色化服務(wù)。④ 開(kāi)展深層次的知識(shí)服務(wù):利用大數(shù)據(jù)分析挖掘各類(lèi)資源間的關(guān)聯(lián)關(guān)系,形成知識(shí)網(wǎng)絡(luò),為讀者提供可視化的知識(shí)網(wǎng)絡(luò)服務(wù)。
受益于數(shù)字圖書(shū)館的建設(shè)成果,圖書(shū)館界形成了大數(shù)據(jù)應(yīng)用的數(shù)據(jù)基礎(chǔ)。① 開(kāi)放館藏資源并提供關(guān)聯(lián)數(shù)據(jù)服務(wù)。美國(guó)各類(lèi)公共圖書(shū)館、行業(yè)協(xié)會(huì)等非營(yíng)利機(jī)構(gòu)利用大數(shù)據(jù)開(kāi)展了“數(shù)據(jù)無(wú)邊界運(yùn)動(dòng)”等一系列的社會(huì)公共服務(wù)。如哈佛大學(xué)公布了由73家圖書(shū)館分館提供的1,200多萬(wàn)種資料,并在美國(guó)數(shù)字公共圖書(shū)館中提供下載服務(wù);[4]德國(guó)數(shù)字圖書(shū)館以1,842家圖書(shū)館、檔案館和博物館機(jī)構(gòu)為支撐,開(kāi)放在線資源560萬(wàn)件,并通過(guò)API提供元數(shù)據(jù)的自由和免費(fèi)再利用等。[5]② 開(kāi)發(fā)更多符合讀者需求的服務(wù)。如韓國(guó)文化體育觀光部從2014年開(kāi)始推動(dòng)建設(shè)圖書(shū)館大數(shù)據(jù)收集、存儲(chǔ)、共享平臺(tái),并幫助各大圖書(shū)館開(kāi)發(fā)更多符合讀者需求的服務(wù)。[6]
國(guó)內(nèi)各大圖書(shū)館和其他信息機(jī)構(gòu)已展開(kāi)了大數(shù)據(jù)應(yīng)用的探索與嘗試。深圳“圖書(shū)館之城”基本實(shí)現(xiàn)了深圳市文獻(xiàn)資源的共享和大流通,從文獻(xiàn)外借、讀者群體、閱讀喜好等方面深入分析市民閱讀狀況,并有針對(duì)性地加強(qiáng)閱讀引導(dǎo)。[7]上海圖書(shū)館基于大量流通數(shù)據(jù)和日志建設(shè)了數(shù)據(jù)倉(cāng)庫(kù),在此基礎(chǔ)上為讀者制作個(gè)人閱讀賬單,提供個(gè)性化的年度閱讀總結(jié)和指引,形成流通數(shù)據(jù)白皮書(shū)和流通分析報(bào)告等。[8]
(1)海量數(shù)據(jù)與高質(zhì)量數(shù)據(jù)獲取困難的矛盾。雖然圖書(shū)館的信息數(shù)據(jù)化程度較高,但仍然缺乏基礎(chǔ)數(shù)據(jù)的規(guī)劃、管理和保存機(jī)制,數(shù)據(jù)分析困難。① 圖書(shū)館早年建設(shè)的信息系統(tǒng)以實(shí)用和滿足業(yè)務(wù)需求為主,缺乏周全的統(tǒng)計(jì)模塊和日志記錄功能,缺乏對(duì)必要數(shù)據(jù)的維護(hù)和目的性保存。② 圖書(shū)館購(gòu)買(mǎi)的部分外文數(shù)據(jù)庫(kù)由于僅能購(gòu)買(mǎi)其檢索和文獻(xiàn)下載權(quán)限,而無(wú)法獲取可利用、分析的有效訪問(wèn)數(shù)據(jù)信息。③ 圖書(shū)館的服務(wù)一直朝著簡(jiǎn)潔化和人性化的方向發(fā)展,因此,很難對(duì)用戶的行為進(jìn)行完整和精準(zhǔn)的記錄。④數(shù)據(jù)質(zhì)量問(wèn)題。圖書(shū)館的許多業(yè)務(wù)數(shù)據(jù)匯集頻率低,而大數(shù)據(jù)項(xiàng)目需要對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)更新,數(shù)據(jù)收集特別是高質(zhì)量數(shù)據(jù)的完整獲取存在困難。
(2)圖書(shū)館的公共性與大數(shù)據(jù)強(qiáng)調(diào)個(gè)性化的矛盾。大數(shù)據(jù)時(shí)代的信息服務(wù)開(kāi)始向個(gè)性化、去中心化、實(shí)時(shí)化、智慧化方向發(fā)展,[9]注重根據(jù)用戶需求提供個(gè)性化定制或者推薦服務(wù)。然而,圖書(shū)館的服務(wù)在本質(zhì)上仍是一種“公共品”,公共性、普遍性、均等性是其主要特點(diǎn)。大數(shù)據(jù)所注重的對(duì)用戶個(gè)性化信息服務(wù)的滿足與圖書(shū)館信息服務(wù)的公共性在一定程度上是相悖的。檢索能力較高或經(jīng)常訪問(wèn)這一網(wǎng)站的用戶需求和行為規(guī)律被記錄下來(lái),大數(shù)據(jù)則依據(jù)用戶行為數(shù)據(jù)的“結(jié)果預(yù)判”來(lái)提供相應(yīng)的信息服務(wù),久而久之,那些信息檢索能力較低或偶爾訪問(wèn)這一網(wǎng)站的用戶其需求則會(huì)被忽略,進(jìn)而影響圖書(shū)館信息服務(wù)的公共性。
大數(shù)據(jù)建設(shè)是一項(xiàng)體系復(fù)雜、動(dòng)態(tài)調(diào)整、多頭并進(jìn)的系統(tǒng)工程,大數(shù)據(jù)項(xiàng)目在實(shí)施之前,應(yīng)做好頂層規(guī)劃,設(shè)定長(zhǎng)期建設(shè)目標(biāo)和階段性目標(biāo),并確定每個(gè)階段需要收集的數(shù)據(jù)內(nèi)容和類(lèi)型。以數(shù)據(jù)為基礎(chǔ)、以應(yīng)用為導(dǎo)向,使相互融通、相互支持的數(shù)據(jù)形成聚合效應(yīng),以推動(dòng)應(yīng)用層的拓展和創(chuàng)新。大數(shù)據(jù)技術(shù)是輔助性工具,而不是決定性工具,因此,圖書(shū)館應(yīng)審慎推進(jìn)大數(shù)據(jù)項(xiàng)目。此外,要深度調(diào)研能否獲得足夠的基礎(chǔ)數(shù)據(jù)支持。如,圖書(shū)館資源分析需獲取圖書(shū)館實(shí)體資源、數(shù)字資源等相關(guān)系統(tǒng)中的資源建設(shè)、發(fā)布和使用情況等數(shù)據(jù)作為支持;用戶滿意度分析需獲取用戶的需求、行為及用戶在網(wǎng)站、自媒體平臺(tái)、反饋問(wèn)卷等渠道的評(píng)價(jià)等。同時(shí),還要考量當(dāng)前是否具備大數(shù)據(jù)落地的基礎(chǔ)條件,如配套的技術(shù)、數(shù)據(jù)基礎(chǔ)、人才儲(chǔ)備等。
大數(shù)據(jù)平臺(tái)一般根據(jù)數(shù)據(jù)的流向自底向上共包括五層,分別為數(shù)據(jù)采集層、數(shù)據(jù)處理層、數(shù)據(jù)分析層、數(shù)據(jù)訪問(wèn)層及應(yīng)用層。在同一層次,不同的平臺(tái)會(huì)采用不同的技術(shù)組件來(lái)滿足不同的業(yè)務(wù)場(chǎng)景,因此,選擇大數(shù)據(jù)平臺(tái)時(shí)應(yīng)結(jié)合自己的業(yè)務(wù)需求。一般來(lái)說(shuō),大數(shù)據(jù)平臺(tái)要具備以下能力:① 多樣化數(shù)據(jù)采集能力,支持對(duì)表格、文件、消息等多種類(lèi)型數(shù)據(jù)的實(shí)時(shí)增量數(shù)據(jù)采集和批量數(shù)據(jù)分布式采集;② 可視化快速配置能力,提供圖形化的開(kāi)發(fā)和維護(hù)界面,支持圖形化拖拽式開(kāi)發(fā)和快速接口配置;③ 高效的管理能力,包括應(yīng)用管理和系統(tǒng)管理,能夠?qū)崿F(xiàn)對(duì)各類(lèi)技術(shù)組件的透明訪問(wèn),并滿足調(diào)度管理、元數(shù)據(jù)管理、質(zhì)量管理等需求;④ 靈活適應(yīng)不同應(yīng)用類(lèi)型和數(shù)據(jù)場(chǎng)景,具備合理的基礎(chǔ)架構(gòu),具有恰當(dāng)?shù)慕ㄔO(shè)維護(hù)成本和生命周期。
圖書(shū)館的數(shù)據(jù)存在于不同的平臺(tái),依附于不同的業(yè)務(wù)流程,數(shù)據(jù)的標(biāo)準(zhǔn)、格式、類(lèi)型、表現(xiàn)形式和存儲(chǔ)結(jié)構(gòu)千差萬(wàn)別。在現(xiàn)有技術(shù)條件下,完全收集、整理和處理這些數(shù)據(jù)是一件非常困難的事情。因此,需要制定合理的數(shù)據(jù)價(jià)值評(píng)估標(biāo)準(zhǔn),按照數(shù)據(jù)重要性進(jìn)行排序與分類(lèi),這樣不僅有利于收集核心數(shù)據(jù),更有利于了解數(shù)據(jù)價(jià)值分布情況,方便數(shù)據(jù)的后續(xù)收集保存與使用。一般來(lái)說(shuō),圖書(shū)館的大數(shù)據(jù)采集要涵蓋資源、用戶、服務(wù)等主題,每個(gè)主題要有不同的屬性特征。每個(gè)屬性特征下有不同的指標(biāo)集,如用戶屬性包括用戶的性別、年齡、職業(yè)、生活地域、文化程度等,每個(gè)指標(biāo)項(xiàng)都要有固定的采集頻率、采集方式等。此外,數(shù)據(jù)收集工作除了要采集數(shù)據(jù)外,還要對(duì)數(shù)據(jù)進(jìn)行培養(yǎng),即從大數(shù)據(jù)的角度出發(fā),深入調(diào)研需要哪些數(shù)據(jù)、缺少哪些數(shù)據(jù)、哪些數(shù)據(jù)現(xiàn)階段的精度還不符合實(shí)施的需求,從而主動(dòng)地要求數(shù)據(jù)提供方來(lái)補(bǔ)充和生產(chǎn)這些數(shù)據(jù),形成一個(gè)循環(huán)可持續(xù)發(fā)展的數(shù)據(jù)體系。
大數(shù)據(jù)項(xiàng)目能否順利實(shí)施、充分發(fā)揮作用,深層次看,面臨的主要挑戰(zhàn)不是技術(shù),而是組織和管理。圖書(shū)館中的數(shù)據(jù)隸屬于不同的組織部門(mén),要想整合這些數(shù)據(jù),就需要各相關(guān)部門(mén)統(tǒng)一樹(shù)立開(kāi)放、共享基礎(chǔ)設(shè)施與數(shù)據(jù)資源的意識(shí),形成標(biāo)準(zhǔn)統(tǒng)一、權(quán)責(zé)清晰的數(shù)據(jù)體系和管理機(jī)制。此外,大數(shù)據(jù)項(xiàng)目的實(shí)施和運(yùn)營(yíng)對(duì)圖書(shū)館的人才隊(duì)伍提出了更高的要求,不僅要有系統(tǒng)架構(gòu)、數(shù)據(jù)倉(cāng)儲(chǔ)等傳統(tǒng)IT領(lǐng)域的人才,還要有數(shù)據(jù)分析、數(shù)據(jù)挖掘、人工智能、統(tǒng)計(jì)學(xué)、數(shù)學(xué)等方面的精英。