陳勵(lì)和
摘要:大數(shù)據(jù)時(shí)代的到來(lái)催生了數(shù)據(jù)科學(xué)家,本文探討了數(shù)據(jù)科學(xué)家積極主動(dòng)地參與醫(yī)療機(jī)構(gòu)高層的決策咨詢(xún),努力為解決大數(shù)據(jù)時(shí)代醫(yī)學(xué)圖書(shū)館發(fā)展中的戰(zhàn)略問(wèn)題提供可持續(xù)發(fā)展的咨詢(xún)報(bào)告,為宏觀(guān)決策提供科學(xué)依據(jù),對(duì)所服務(wù)的讀者在使用圖書(shū)館資源和網(wǎng)上資源的過(guò)程中所產(chǎn)生的大量數(shù)據(jù)進(jìn)行統(tǒng)一收集、統(tǒng)一分析,為訂購(gòu)醫(yī)學(xué)資源提供咨詢(xún)和依據(jù),從繁雜無(wú)序的大量數(shù)據(jù)中找到有用的價(jià)值信息,并將這些有用的數(shù)據(jù)信息傳遞給高層決策者和用戶(hù),最終得以在讀者使用中實(shí)現(xiàn)有用的價(jià)值。
關(guān)鍵詞:數(shù)據(jù)科學(xué)家;大數(shù)據(jù);圖書(shū)館;未來(lái)發(fā)展
DOI: 10.3969/j.issn.2095-5707.2018.04.002
中圖分類(lèi)號(hào):R-058 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-5707(2018)04-0006-03
Abstract: The advent of the era of big data has given rise to data scientists. This article discussed that the data scientists actively participate in decision-making consultation of high-level medical institutions, make efforts to provide sustainability consultation reports for solving strategic problems in the development of medical libraries in the era of big data, which can provide a scientific basis for macro decision. It also pointed out that data scientists provide unified collection and analysis of the large amount of data generated by the serviced readers in the process of using library resources and online resources. offer consultation and basis for ordering medical resources, find a large number of useful and valuable data from the chaos of information, pass these useful data information to high-level decision makers and users, and finally realize useful value in the use of readers.
Key words: data scientists; big data; libraries; future development
大數(shù)據(jù)時(shí)代的到來(lái)給數(shù)據(jù)分析和挖掘帶來(lái)相當(dāng)大的難度。據(jù)“國(guó)際數(shù)據(jù)公司”(IDC)研究人員預(yù)計(jì),到2020年全球每年產(chǎn)生的數(shù)據(jù)量將達(dá)到35ZB。這些數(shù)據(jù)如果刻成DVD光盤(pán),把這些DVD光盤(pán)一張一張地疊加起來(lái)的高度是地球到月球的2倍[1]。這些繁雜巨大的信息數(shù)據(jù)依賴(lài)傳統(tǒng)的人工分析方法已顯得緩慢滯后,只依靠機(jī)器處理也難以適應(yīng)大數(shù)據(jù)時(shí)代的信息需要。那些運(yùn)用數(shù)據(jù)科學(xué)的方法進(jìn)行收集數(shù)據(jù)、分析數(shù)據(jù)、研究數(shù)據(jù)、處理數(shù)據(jù)的數(shù)據(jù)科學(xué)家的出現(xiàn),為大數(shù)據(jù)的研究與應(yīng)用帶來(lái)新的希望。
1 數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家
1.1 數(shù)據(jù)科學(xué)
數(shù)據(jù)科學(xué)是關(guān)于數(shù)據(jù)的綜合體或者是專(zhuān)門(mén)研究數(shù)據(jù)的一門(mén)科學(xué),其研究對(duì)象是數(shù)據(jù)系統(tǒng)中的數(shù)據(jù),是專(zhuān)門(mén)研究網(wǎng)絡(luò)空間中的數(shù)據(jù)系統(tǒng)的規(guī)律、方法和技術(shù)。與我們所認(rèn)知的自然科學(xué)和社會(huì)科學(xué)比較,其出現(xiàn)的時(shí)間還比較遲,它專(zhuān)門(mén)研究的是虛擬的數(shù)據(jù)。數(shù)據(jù)科學(xué)主要是為我們所認(rèn)知的自然科學(xué)和社會(huì)科學(xué)研究提供一種全新的方法,稱(chēng)為科學(xué)研究的數(shù)據(jù)方法,其目的在于探索和提示自然界和人類(lèi)行為的現(xiàn)象和規(guī)律。
1.2 數(shù)據(jù)科學(xué)家
數(shù)據(jù)科學(xué)家是由美國(guó)的Natahn Yau博士在2009年提出來(lái)的[2],目前還沒(méi)有統(tǒng)一的定義。比較認(rèn)可的定義是,數(shù)據(jù)科學(xué)家是指運(yùn)用專(zhuān)門(mén)的統(tǒng)計(jì)分析、機(jī)器判斷、分布式處理、綜合評(píng)估等技術(shù),從大量數(shù)據(jù)中提煉出對(duì)用戶(hù)有意義的信息,以容易通用明了的形式傳送給用戶(hù)和決策者,并綜合提煉出新的數(shù)據(jù)來(lái)應(yīng)用服務(wù)的人才。數(shù)據(jù)科學(xué)家通過(guò)關(guān)注使用者提供的數(shù)據(jù)來(lái)進(jìn)行綜合分析,在更高層面上創(chuàng)造出不同特性的產(chǎn)品和流程,為使用者提供增值性的信息服務(wù)[3]。
2 數(shù)據(jù)科學(xué)家的素質(zhì)和能力
2.1 數(shù)據(jù)科學(xué)家具備的素質(zhì)
2.1.1 創(chuàng)業(yè)意識(shí) 數(shù)據(jù)科學(xué)家應(yīng)該具備以繁雜、無(wú)序、海量的數(shù)據(jù)為核心進(jìn)行創(chuàng)新性研發(fā)和提升的創(chuàng)業(yè)意識(shí)。亞馬遜(Amazon)、谷歌(Google)、阿里巴巴(Alibaba)、臉書(shū)(Facebook)等都是基于對(duì)龐大復(fù)雜的數(shù)據(jù)進(jìn)行收集、分析、整合、創(chuàng)新,進(jìn)而產(chǎn)生出新型的服務(wù)型企業(yè),都是數(shù)據(jù)分析和數(shù)據(jù)處理的研究人員通過(guò)艱苦探求才獲得成功的。
2.1.2 探索精神 堅(jiān)韌的探索精神是科學(xué)家不斷進(jìn)取的驅(qū)動(dòng)力和創(chuàng)造力的根源,數(shù)據(jù)科學(xué)家的工作就是在龐大復(fù)雜數(shù)據(jù)中探求,具有強(qiáng)烈的探索精神才能驅(qū)動(dòng)他們探求和研究問(wèn)題實(shí)質(zhì),尋找問(wèn)題的最佳答案,并把它們提煉為一組更加明了、清晰、可以驗(yàn)證的假設(shè)[4]。數(shù)據(jù)科學(xué)家的價(jià)值并不是單靠做簡(jiǎn)單的報(bào)表和PPT等材料提供給高層決策者,而是通過(guò)收集全體用戶(hù)的標(biāo)準(zhǔn)、要求和流程等,對(duì)海量繁雜的數(shù)據(jù)進(jìn)行再分析和加工,揭示出事物的內(nèi)在聯(lián)系,從而找出最佳的解決問(wèn)題的方案,這需要數(shù)據(jù)科學(xué)家強(qiáng)烈的探求精神和嚴(yán)謹(jǐn)?shù)墓ぷ鲬B(tài)度。
2.1.3 廣泛興趣 具有卓越品質(zhì)的數(shù)據(jù)科學(xué)家的興趣和好奇并不是局限于他們所掌握的計(jì)算機(jī)科學(xué)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)等與數(shù)據(jù)分析有關(guān)的學(xué)科,而是對(duì)文學(xué)、音樂(lè)、藝術(shù)、醫(yī)療、社會(huì)科學(xué)、自然科學(xué)等各個(gè)領(lǐng)域都擁有廣泛的愛(ài)好[5]。美國(guó)的數(shù)據(jù)科學(xué)家大多數(shù)具有豐富的工作經(jīng)歷,他們具有實(shí)驗(yàn)物理學(xué)、計(jì)算機(jī)化學(xué)、數(shù)據(jù)統(tǒng)計(jì)學(xué),甚至是生理學(xué)、神經(jīng)外科學(xué)等工作的扎實(shí)經(jīng)驗(yàn)和豐富理論。正因?yàn)樗麄兙哂袕V泛的探求精神和淵博的知識(shí),在他們對(duì)不同領(lǐng)域數(shù)據(jù)的搜集、整合、分析、評(píng)估時(shí),才能夠發(fā)現(xiàn)常人難以發(fā)現(xiàn)的有價(jià)值的數(shù)據(jù)與觀(guān)點(diǎn),找出不同事件的發(fā)展特征和正在發(fā)生事件的趨勢(shì)。
2.2 數(shù)據(jù)科學(xué)家需具備的技能
2.2.1 計(jì)算機(jī)科學(xué)與數(shù)據(jù)分析能力 掌握計(jì)算機(jī)編程技能和數(shù)據(jù)搜集、數(shù)據(jù)分析、數(shù)據(jù)儲(chǔ)存、數(shù)據(jù)安全的技術(shù)。具備處理大數(shù)據(jù)所需要的Hadoop、Mahout等大數(shù)據(jù)和大規(guī)模的處理技術(shù)。
2.2.2 數(shù)據(jù)處理與統(tǒng)計(jì)分析能力 除了掌握數(shù)據(jù)搜集、數(shù)據(jù)分析、數(shù)據(jù)優(yōu)化和數(shù)據(jù)綜合能力外,還要具備數(shù)學(xué)、統(tǒng)計(jì)及綜合的知識(shí)和技能,如SAS、SPSS等統(tǒng)計(jì)分析軟件和與編程語(yǔ)言與運(yùn)行環(huán)境相關(guān)的知識(shí)。
2.2.3 數(shù)據(jù)可視化能力 數(shù)據(jù)可視化能力的確是數(shù)據(jù)科學(xué)家非常重要的技能。信息數(shù)據(jù)的表達(dá)方法決定了信息數(shù)據(jù)的質(zhì)量,數(shù)據(jù)信息可視化對(duì)信息的直接采用和對(duì)高層決策的利用都有很重要的作用。數(shù)據(jù)科學(xué)家要從零散繁亂的數(shù)據(jù)中進(jìn)行采集和分析,使用應(yīng)用程序接口(Application Programming Interface, API)將地圖、圖表、儀表盤(pán)(Dashboard)等數(shù)據(jù)服務(wù)統(tǒng)一起來(lái),進(jìn)一步完成分析結(jié)果可視化。
3 數(shù)據(jù)科學(xué)家是未來(lái)的戰(zhàn)略資源
隨著對(duì)大數(shù)據(jù)應(yīng)用研究的進(jìn)一步推廣和應(yīng)用,數(shù)據(jù)科學(xué)家對(duì)數(shù)據(jù)的收集、存儲(chǔ)、處理、分析,以及對(duì)大數(shù)據(jù)的解決方案都會(huì)不斷地深化,但是研究大數(shù)據(jù)最大的問(wèn)題不是工具,而是人才短缺,作為大數(shù)據(jù)研究的引導(dǎo)者,社會(huì)上對(duì)數(shù)據(jù)科學(xué)家的需求也不斷增長(zhǎng)。大型互聯(lián)網(wǎng)技術(shù)廠(chǎng)商易安信公司(EMC)在2013年發(fā)表的一份關(guān)于對(duì)美國(guó)、中國(guó)、英國(guó)、法國(guó)、印度等數(shù)據(jù)科學(xué)家的調(diào)研報(bào)告中得出,有2/3的參與者認(rèn)為在未來(lái)幾年中數(shù)據(jù)科學(xué)家仍然缺乏[4]。這一發(fā)展趨勢(shì)進(jìn)一步印證了2016年12月麥肯錫全球研究院發(fā)表的《分析的時(shí)代:在大數(shù)據(jù)的世界競(jìng)爭(zhēng)》報(bào)告的結(jié)果:美國(guó)專(zhuān)業(yè)數(shù)據(jù)科學(xué)家每年仍缺口約25萬(wàn)人。預(yù)測(cè)未來(lái)的10年內(nèi),單是美國(guó)對(duì)這種人才的需求約為200~400萬(wàn)[6]。
社會(huì)上對(duì)數(shù)據(jù)科學(xué)家的需求在四、五年前還僅限于Google、Amazon等較大型的網(wǎng)絡(luò)公司。隨著大數(shù)據(jù)分析重要性的不斷出現(xiàn),重視數(shù)據(jù)分析、研究與應(yīng)用的企業(yè)日益增加,一些發(fā)達(dá)國(guó)家如德國(guó)、日本、法國(guó)、美國(guó)、加拿大等都大量需要數(shù)據(jù)科學(xué)家,美國(guó)通過(guò)培養(yǎng)和高薪引進(jìn)數(shù)據(jù)研究人員,來(lái)填充數(shù)據(jù)科學(xué)家數(shù)量不足帶來(lái)的問(wèn)題[7]。Facebook、IBM、Google、Amazon等大型企業(yè)對(duì)數(shù)據(jù)科學(xué)家的需求不斷增加,據(jù)報(bào)道,日本新成立“數(shù)據(jù)科學(xué)家協(xié)會(huì)”,致力于企業(yè)內(nèi)部培養(yǎng)“大數(shù)據(jù)”分析人才[8],未來(lái)數(shù)據(jù)科學(xué)家會(huì)成為一種戰(zhàn)略資源。
4 數(shù)據(jù)科學(xué)家在醫(yī)學(xué)圖書(shū)館中的作用
從Facebook、IBM、Google、Amazon等大型企業(yè)成功的例證上我們可以看出,支撐這些大公司業(yè)務(wù)提升與業(yè)績(jī)的背后就是數(shù)據(jù)科學(xué)家。這些大型企業(yè)對(duì)于海量繁雜的數(shù)據(jù)不僅是進(jìn)行收集、存儲(chǔ),而是通過(guò)一系列的研究與分析,將其變?yōu)橛袃r(jià)值的數(shù)據(jù)信息,通過(guò)對(duì)結(jié)果的分析、產(chǎn)品的推薦為公司的發(fā)展起到了決定性的作用。就醫(yī)學(xué)圖書(shū)館來(lái)說(shuō),數(shù)據(jù)科學(xué)家的作用也與其在網(wǎng)絡(luò)公司起到的作用近似,主要體現(xiàn)在以下3個(gè)方面:
4.1 為醫(yī)學(xué)圖書(shū)館決策服務(wù)
數(shù)據(jù)科學(xué)家積極主動(dòng)地參與醫(yī)學(xué)機(jī)構(gòu)高層的決策咨詢(xún),為解決大數(shù)據(jù)時(shí)代醫(yī)學(xué)圖書(shū)館發(fā)展中的戰(zhàn)略問(wèn)題提供可持續(xù)發(fā)展的咨詢(xún)報(bào)告,為醫(yī)學(xué)圖書(shū)館的宏觀(guān)決策提供科學(xué)依據(jù)。數(shù)據(jù)科學(xué)家對(duì)讀者的醫(yī)學(xué)信息數(shù)據(jù)的需求和醫(yī)學(xué)科技發(fā)展的走向有著很強(qiáng)的預(yù)測(cè)性,并且長(zhǎng)期追蹤醫(yī)學(xué)圖書(shū)館的信息服務(wù)的發(fā)展熱點(diǎn)和讀者急需的醫(yī)療數(shù)據(jù)[9]。因此,數(shù)據(jù)科學(xué)家的研究成果往往能夠直接為醫(yī)學(xué)圖書(shū)館的發(fā)展提供決策性的建議,解決實(shí)際問(wèn)題。
4.2 為醫(yī)學(xué)圖書(shū)館的資源訂購(gòu)提供咨詢(xún)和依據(jù)
醫(yī)學(xué)圖書(shū)館是信息聚集、搜集、存儲(chǔ)和傳遞的重要匯集地,大數(shù)據(jù)的收集、分析、利用、傳遞離不開(kāi)數(shù)據(jù)科學(xué)家的參與。培養(yǎng)數(shù)據(jù)科學(xué)家成為今后醫(yī)學(xué)圖書(shū)館在大數(shù)據(jù)時(shí)代生存發(fā)展的迫切任務(wù)。每個(gè)醫(yī)學(xué)圖書(shū)館沒(méi)有能力也不可能訂購(gòu)所有科研和醫(yī)療單位專(zhuān)家所需要的醫(yī)學(xué)信息資源,單靠圖書(shū)館專(zhuān)家咨詢(xún)和問(wèn)卷調(diào)查來(lái)滿(mǎn)足大部分用戶(hù)對(duì)醫(yī)學(xué)信息的需求是不可能實(shí)現(xiàn)的。這樣,就需要數(shù)據(jù)科學(xué)家對(duì)讀者在使用圖書(shū)館資源和網(wǎng)上資源的過(guò)程中所產(chǎn)生的大量數(shù)據(jù)進(jìn)行統(tǒng)一收集、統(tǒng)一分析,探求出讀者使用愛(ài)好和關(guān)注焦點(diǎn)的規(guī)律,并預(yù)測(cè)出未來(lái)的研究方向,依據(jù)研究成果來(lái)指導(dǎo)醫(yī)學(xué)信息資源的訂購(gòu)工作,通過(guò)對(duì)數(shù)據(jù)的分析還可以預(yù)測(cè)到未來(lái)信息服務(wù)的方向。
4.3 提高醫(yī)學(xué)圖書(shū)館資源利用率
依靠數(shù)據(jù)科學(xué)家所具備的數(shù)據(jù)收集、分析、綜合的能力來(lái)挖掘知識(shí),利用數(shù)據(jù)科學(xué)家的數(shù)據(jù)優(yōu)化與綜合能力、統(tǒng)計(jì)分析能力來(lái)整合知識(shí),充分發(fā)揮數(shù)據(jù)科學(xué)家的可視化能力來(lái)傳遞和推廣醫(yī)學(xué)圖書(shū)館的信息數(shù)據(jù)知識(shí),利用數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)安全技能保障信息數(shù)據(jù)和信息知識(shí)的安全。目前,大多數(shù)醫(yī)學(xué)圖書(shū)館所訂購(gòu)的數(shù)據(jù)庫(kù)利用率比較低,是因?yàn)槠鋽?shù)據(jù)和信息的分析能力遠(yuǎn)遠(yuǎn)未能達(dá)到真正把讀者需要的信息和知識(shí)挖掘出來(lái)[10]。如果不依靠數(shù)據(jù)科學(xué)家分析和整理出所訂購(gòu)的信息資源,醫(yī)學(xué)圖書(shū)館所擁有的數(shù)據(jù)庫(kù)即使再多,數(shù)據(jù)量再大,也很難讓這些資源再增加價(jià)值。數(shù)據(jù)科學(xué)家的作用就是從繁雜無(wú)序的大量數(shù)據(jù)中找到有用的價(jià)值信息,并將這些有用的數(shù)據(jù)信息傳遞給高層決策者和用戶(hù),最終得以在讀者使用中實(shí)現(xiàn)信息的價(jià)值。
5 小結(jié)
數(shù)據(jù)科學(xué)家的出現(xiàn)是數(shù)據(jù)科學(xué)不斷完善和發(fā)展的具體表現(xiàn),使數(shù)據(jù)科學(xué)變得更加直觀(guān)和可視,也體現(xiàn)出數(shù)據(jù)科學(xué)研究的重要性。在大數(shù)據(jù)時(shí)代的今天,數(shù)據(jù)科學(xué)家為加快醫(yī)學(xué)圖書(shū)館的發(fā)展、優(yōu)化醫(yī)學(xué)圖書(shū)館的管理有很大的促進(jìn)作用,也為醫(yī)學(xué)信息資源的優(yōu)化訂購(gòu)、充分利用、個(gè)性化服務(wù)起到積極的推動(dòng)作用。
參考文獻(xiàn)
[1] TAYLOR Chris. Career of the Future: Data Scientist [INFOGRAPHIC][EB/OL].(2012-01-13)[2017-11-22].https://mashable. com/2012/01/13/career-of-the-future-data-scientist-infographic/ #Jpk5xwbSn8qW.
[2] 王新才,丁家友.大數(shù)據(jù)知識(shí)圖譜:概念、特征、應(yīng)用與影響[J].情報(bào)科學(xué),2013,31(9):10-14,136.
[3] 趙振營(yíng).圖書(shū)館實(shí)施大數(shù)據(jù)戰(zhàn)略實(shí)踐路徑分析[J].中國(guó)中醫(yī)藥圖書(shū)情報(bào)雜志,2017,41(2):35-38.
[4] 朱揚(yáng)勇,熊贇.大數(shù)據(jù)時(shí)代的數(shù)據(jù)科學(xué)家培養(yǎng)[J].大數(shù)據(jù),2016(3): 106-112.
[5] 秦小燕,初景利.國(guó)外數(shù)據(jù)科學(xué)家能力體系研究現(xiàn)狀與啟示[J].圖書(shū)情報(bào)工作,2017,61(23):40-50.
[6] 數(shù)據(jù)觀(guān).帶你讀懂麥肯錫大數(shù)據(jù)分析報(bào)告[EB/OL].(2017-02-10) [2017-11-22].http://www.raincent.com/content-10-8451-1.html.
[7] 榮邵.人才大數(shù)據(jù)[J].國(guó)際人才交流,2016(1):21.
[8] 環(huán)球網(wǎng).日本成立“數(shù)據(jù)科學(xué)家協(xié)會(huì)” 培養(yǎng)大數(shù)據(jù)分析人才[EB/OL].(2013-07-17)[2017-11-22].http://world.huanqiu.com/ exclusive/2013-07/4140239.html.
[9] 陳振沖,賀田田.數(shù)據(jù)科學(xué)人才的需求與培養(yǎng)[J].大數(shù)據(jù),2016(5): 95-106.
[10] 杜棟,蘇樂(lè)天.大數(shù)據(jù)時(shí)代信息管理面臨的挑戰(zhàn)和應(yīng)對(duì)策略[J].工業(yè)和信息化教育,2015(11):87-89,94.
(收稿日期:2018-02-21)
(修回日期:2018-02-28;編輯:魏民)