●鄧小茹 陳穎瑜
(廣州醫(yī)科大學(xué) 廣州 510182)
?
管窺“暗數(shù)據(jù)”可視化的應(yīng)用前景與隱憂*
●鄧小茹陳穎瑜
(廣州醫(yī)科大學(xué)廣州510182)
[摘要]文章通過(guò)對(duì)互聯(lián)網(wǎng)上出現(xiàn)的新名詞“暗數(shù)據(jù)”的引入,介紹其產(chǎn)生背景及在國(guó)內(nèi)外的研究現(xiàn)狀,并分別從數(shù)量與比例、質(zhì)量和技術(shù)可行性3個(gè)方面進(jìn)行探討和提出構(gòu)思觀點(diǎn),進(jìn)一步剖析暗數(shù)據(jù)的可視化及價(jià)值釋放,也對(duì)暗數(shù)據(jù)點(diǎn)亮后隨之引發(fā)的法務(wù)或其他風(fēng)險(xiǎn),提出了個(gè)人的建議與看法。參考文獻(xiàn)10。
[關(guān)鍵詞]暗數(shù)據(jù)可視化潛在價(jià)值合理開發(fā)法務(wù)風(fēng)險(xiǎn)
1引言
伴隨著大數(shù)據(jù)和云時(shí)代的來(lái)臨,呈現(xiàn)在我們面前的是數(shù)之不盡而又揮之不去的非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。為了更好地利用無(wú)盡的信息資源,人們開發(fā)了包括云計(jì)算在內(nèi)的不少新技術(shù),對(duì)數(shù)據(jù)進(jìn)行專業(yè)的標(biāo)引加工和分析處理,筆者對(duì)此不一一贅述。顯然,這是為了通過(guò)進(jìn)一步的深加工,洞察并揭示數(shù)據(jù)背后所帶來(lái)的潛在價(jià)值,實(shí)現(xiàn)信息的現(xiàn)實(shí)增值。反之,數(shù)據(jù)則會(huì)處于黑暗的非揭示狀態(tài),正如物體的亮面與暗面一樣并存著。因而,伴隨著大數(shù)據(jù)的進(jìn)一步細(xì)分,按照其利用率和揭示深度,學(xué)術(shù)界引入了一個(gè)新名詞——“暗數(shù)據(jù)”(Dark data)。
目前,對(duì)于“暗數(shù)據(jù)”這個(gè)嶄新的名字,學(xué)術(shù)界尚處于研究的萌芽狀態(tài),因此,其概念和范圍等界定尚在熱議當(dāng)中。國(guó)內(nèi)普遍認(rèn)可的是美國(guó)權(quán)威的IT研究與顧問(wèn)咨詢公司Gartner公司對(duì)“暗數(shù)據(jù)”的定義:“企業(yè)在開展正常業(yè)務(wù)活動(dòng)期間采集、處理和存儲(chǔ),但通常無(wú)法用于其它目的(如分析、商業(yè)關(guān)系和直接獲利)的信息?!盵1]筆者認(rèn)為,可以將它看作是大數(shù)據(jù)的子集,凡是存儲(chǔ)(無(wú)論是否感知其存在)但目前尚未開發(fā)使用的數(shù)據(jù),我們都把它歸類為“暗數(shù)據(jù)”。也可以理解為,無(wú)論我們是否覺察,或許已經(jīng)擁有這些數(shù)據(jù)有些時(shí)日了,只不過(guò)到現(xiàn)在,它得到了一個(gè)新穎的術(shù)語(yǔ)稱謂罷了。
2研究現(xiàn)狀
近期,國(guó)內(nèi)外的眾多學(xué)者紛紛探討大數(shù)據(jù)的利用率和揭示深度,為今后逐步掀開“暗數(shù)據(jù)”的神秘蓋頭拉開了序幕。在理論探討方面,我國(guó)著名學(xué)者吳建中先生2015年2月22日在他個(gè)人的新浪博客中,論述了他對(duì)暗數(shù)據(jù)的理解并作出了簡(jiǎn)要的前景分析,他明確指出:國(guó)際知名的開放出版機(jī)構(gòu)生物醫(yī)學(xué)中心(BioMed Central,簡(jiǎn)稱BMC)與全球最大搜索引擎谷歌(Google),分別于2008年或其后,各自致力于藥物開發(fā)或科技領(lǐng)域的暗數(shù)據(jù)研究;從2012年開始,美國(guó)眾多企業(yè)都在信息發(fā)布或微信等媒體上透露將關(guān)注暗數(shù)據(jù)信息[2]。
網(wǎng)絡(luò)辭典“水滴學(xué)堂”,率先嘗試對(duì)“暗數(shù)據(jù)”的定義、特征和應(yīng)用場(chǎng)景給予了簡(jiǎn)單的揭示,它認(rèn)為:“‘暗數(shù)據(jù)’是深藏于海量數(shù)據(jù)之中、在商業(yè)應(yīng)用上可能發(fā)揮重大作用的關(guān)鍵隱含數(shù)據(jù)。”[3]它更強(qiáng)調(diào)“暗數(shù)據(jù)”的作用和影響力。并且,它與吳建中先生不謀而合,都不約而同地把“暗數(shù)據(jù)”比喻成宇宙中的暗物質(zhì),比起已知事物,它的存在數(shù)量更大,但是至今的潛在價(jià)值尚不明確,對(duì)其本身知之甚少,只能預(yù)測(cè)對(duì)未來(lái)產(chǎn)生一定推動(dòng)或阻礙的可能性,也能為用戶提供更多、更廣泛的機(jī)遇。
而在實(shí)踐研究方面,務(wù)實(shí)的IT業(yè)界內(nèi),目前只有為數(shù)不多的企業(yè),包括惠普公司(HP),美國(guó)慷孚系統(tǒng)公司(CommVault System, Inc)等,正致力于研究和推廣點(diǎn)亮“暗數(shù)據(jù)”的信息治理策略研究和智能歸檔解決方案[4-5]。
筆者通過(guò)查找中國(guó)知網(wǎng)(CNKI)中心站的期刊全文數(shù)據(jù)庫(kù),維普資訊的期刊全文數(shù)據(jù)庫(kù),以及萬(wàn)方數(shù)據(jù)平臺(tái)的期刊全文數(shù)據(jù)庫(kù)進(jìn)行文獻(xiàn)調(diào)研,使用“暗數(shù)據(jù)”或“dark data”作為檢索入口詞,不限定檢索年限,對(duì)所有檢索入口均進(jìn)行了檢索。截止到2015年6月30日,均未發(fā)現(xiàn)以暗數(shù)據(jù)作為主要研究對(duì)象的相關(guān)研究文獻(xiàn)。
3出路初探
在大數(shù)據(jù)中,暗數(shù)據(jù)所占的比例有多高呢?一個(gè)全球性的組織——合規(guī)管理監(jiān)督委員會(huì)(Compliance, Governance and Oversight Counsel, 簡(jiǎn)稱CGOC)在2013年進(jìn)行的一項(xiàng)調(diào)查研究結(jié)果顯示:“在企業(yè)存儲(chǔ)的數(shù)據(jù)中,69%的數(shù)據(jù)對(duì)企業(yè)毫無(wú)價(jià)值?!盵6]而且,根據(jù)預(yù)測(cè),伴隨著大數(shù)據(jù)量的不斷攀升,暗數(shù)據(jù)所占的比例有可能進(jìn)一步上升。吳建中先生在其個(gè)人讀書博客中,則明確表示:“據(jù)有關(guān)統(tǒng)計(jì),在企業(yè)創(chuàng)造的數(shù)據(jù)中,其可用的平均為10%,而90%左右為暗數(shù)據(jù)?!盵7]這就意味著,開發(fā)者需要投入一定的經(jīng)費(fèi)資金來(lái)存儲(chǔ)、管理和保護(hù)這些在比例上占據(jù)著主導(dǎo)地位的暗數(shù)據(jù),可目前還沒有得到合理開發(fā),也暫未產(chǎn)生任何現(xiàn)實(shí)價(jià)值,甚至可能還隱藏著各類未知風(fēng)險(xiǎn)的高比例信息資源,詳見圖1。
圖1 大數(shù)據(jù)中各類型數(shù)據(jù)及其比例分布圖
從另一方面考慮,在不知道其內(nèi)涵價(jià)值的情況下,傳統(tǒng)的保守方法是直接銷毀暗數(shù)據(jù)[8]。筆者認(rèn)為,這是比較冒險(xiǎn)的。我們應(yīng)該看到,暗數(shù)據(jù)本身具備一定的潛在價(jià)值及轉(zhuǎn)化潛力。日常零散的事務(wù)性數(shù)據(jù),可能對(duì)價(jià)值分析沒有太大的影響和沖擊,但是,當(dāng)它們匯集為一定規(guī)模的數(shù)據(jù)集合時(shí),尤其是目前暗數(shù)據(jù)所占據(jù)的主導(dǎo)地位,對(duì)其進(jìn)行分析與揭示,對(duì)于用戶的潛在使用習(xí)慣和需求分析可能會(huì)帶來(lái)有幫助的暗示或?qū)I(yè)務(wù)決策的指引??梢姡禂?shù)據(jù)并不是單純給存儲(chǔ)、維護(hù)和管理造成高成本,而不會(huì)創(chuàng)造價(jià)值的無(wú)用品。確定其準(zhǔn)確性、時(shí)效性、真實(shí)價(jià)值及其高低,是目前實(shí)現(xiàn)暗數(shù)據(jù)可視化面臨的主要挑戰(zhàn)。
可見,暗數(shù)據(jù)無(wú)論是對(duì)于開發(fā)者,還是對(duì)于使用者,都是一把“雙刃劍”。但是,從現(xiàn)實(shí)的角度出發(fā),雙方都達(dá)成了高度統(tǒng)一的美好目標(biāo),就是適度點(diǎn)亮“暗數(shù)據(jù)”,讓它為我們釋放出所期望的利用價(jià)值。這是我們長(zhǎng)期共同關(guān)注和熱切期待解決的問(wèn)題。有鑒于此,筆者分別從數(shù)量與比例、質(zhì)量和技術(shù)可行性3個(gè)方面,提出一些粗淺的觀點(diǎn)與構(gòu)想,詳見表1。
表1 實(shí)現(xiàn)“暗數(shù)據(jù)”可視化的幾點(diǎn)構(gòu)想
4關(guān)注隱憂
對(duì)每個(gè)不同的用戶而言,具備的潛在利用價(jià)值越高,而所需承擔(dān)的連帶風(fēng)險(xiǎn)越低,這是相當(dāng)理想的轉(zhuǎn)化狀態(tài)。相應(yīng)地,這種類型的暗數(shù)據(jù)資源的再開發(fā)成本也相對(duì)較低。不過(guò),現(xiàn)實(shí)中,相當(dāng)一部分暗數(shù)據(jù)的可視化之路并不是理想中的那樣一路坦途。
4.1潛在價(jià)值難于估算
如前所述,全面地分析調(diào)用暗數(shù)據(jù),在技術(shù)層面和成本核算上,也不太實(shí)際。人們面臨的現(xiàn)實(shí)問(wèn)題就是,不確定暗數(shù)據(jù)的潛在價(jià)值,也就很難估算對(duì)其進(jìn)行激活的投入額度高低,因而,容易造成信息固化的惡性循環(huán),這也是再次陷入難于點(diǎn)亮“暗數(shù)據(jù)”,釋放其真實(shí)價(jià)值困境的又一次真實(shí)寫照。
4.2連帶法務(wù)或其他風(fēng)險(xiǎn)
風(fēng)險(xiǎn)與價(jià)值往往是并存的。若在暗數(shù)據(jù)的可視化過(guò)程當(dāng)中,涉及到機(jī)構(gòu)或個(gè)人的知識(shí)產(chǎn)權(quán)、專利保護(hù)、商業(yè)機(jī)密、信息泄密,甚至是涉及國(guó)家安全和軍事機(jī)密的信息,可能會(huì)引發(fā)法律法規(guī)或是政治軍事等敏感問(wèn)題。因而,對(duì)于“暗數(shù)據(jù)”的可視化與見光化,大部分的資源開發(fā)者都采取了相對(duì)慎重,甚至是保守的態(tài)度,盡可能規(guī)避由此而引發(fā)的一系列不必要的麻煩與糾紛。筆者認(rèn)為,這也是“暗數(shù)據(jù)”與“大數(shù)據(jù)”同步產(chǎn)生,但卻遲遲未被呈現(xiàn)在世人面前,并缺乏廣泛熱議的主要原因之一。
5展望
人們對(duì)大數(shù)據(jù)的高度關(guān)注,也引發(fā)了對(duì)其主體部分——“暗數(shù)據(jù)”的進(jìn)一步研究和探討?;蛟S這并不是一個(gè)新興事物,在得到人們垂青的之前,就已經(jīng)默默地存在并發(fā)揮著它應(yīng)有的影響和作用,正如宇宙的暗物質(zhì)一樣。在人們需要越來(lái)越多可靠數(shù)據(jù)作支撐的信息時(shí)代,暗數(shù)據(jù)是否隱含著人們所期待的預(yù)期價(jià)值,如何合理、高效的進(jìn)行點(diǎn)亮,釋放出來(lái)的真實(shí)價(jià)值高低如何,怎樣更好地規(guī)避連帶產(chǎn)生的法務(wù)或其他風(fēng)險(xiǎn),隱私性暗數(shù)據(jù)如何實(shí)現(xiàn)永久性或特定時(shí)效性的安全保護(hù)等等……這一系列問(wèn)題折射出,它給人們帶來(lái)越來(lái)越多對(duì)信息的洞察挖掘潛力和決策判斷潛力的高度寄望。
伴隨著大數(shù)據(jù)的爆炸性激增,暗數(shù)據(jù)能否迎來(lái)它被廣泛關(guān)注和深度研究的“春天”?人們的愿景往往都是美好的,或許,正如吳建中先生所言:“誰(shuí)抓住了這一機(jī)遇,誰(shuí)就抓住了打開通向未來(lái)之門的鑰匙?!盵9]這就需要在今后一步一個(gè)腳印,不斷攻破各種技術(shù)難關(guān),克服重重的研究障礙,期望未來(lái)與美國(guó)權(quán)威的IT研究與顧問(wèn)咨詢公司Gartner公司高級(jí)副總裁兼全球研究負(fù)責(zé)人Peter Sondergaard先生所預(yù)測(cè)的一樣:“展望未來(lái),大數(shù)據(jù)超越了我們所能看到的。你需要了解如何處理混合數(shù)據(jù),這意味著結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)混合,并且需要了解如何照亮‘暗數(shù)據(jù)’。暗數(shù)據(jù)是指收集的數(shù)據(jù),盡管有價(jià)值但尚未使用過(guò)。未來(lái)領(lǐng)先的組織將因其預(yù)測(cè)算法的質(zhì)量而獨(dú)樹一幟。這是CIO的挑戰(zhàn),也是機(jī)會(huì)?!盵10]
參考文獻(xiàn)
[1]Gartner IT Glossary. Dark Data [EB/OL]. http://www.gartner.com/it-glossary/dark-data. [2015-02-21].
[2][7][9]吳建中. 暗數(shù)據(jù)[EB/OL]. http://blog.sina.com.cn/s/blog_53586b810102vgky.html. [2015-03-21].
[3]水滴學(xué)堂. 【詞條】暗數(shù)據(jù)(Dark Data)[EB/OL]. http://shuidixuetang.com/article/15678. [2015-03-21].
[4]HP Technology. HP Technology at Work: 您擁有暗數(shù)據(jù)[EB/OL]. http://www8.hp.com/h30458/cn/zh/smb/1392833.html.[2015-03-21].
[5][6]郭濤. 點(diǎn)亮“暗數(shù)據(jù)”的五種方式[EB/OL]. http://www.ciw.com.cn/h/2562/404273-17604.html. [2015-03-21].
[8]Leo Li. 大數(shù)據(jù)還是小數(shù)據(jù)?我們有選擇嗎?(二)[EB/OL]. https://community.emc.com/docs/DOC-40571. [2015-03-21].
[10]The Economic Times. 4.4 million IT jobs creation globally to support big data by 2015: Gartner[EB/OL]. http://articles.economictimes.indiatimes.com/2012-10-23/news/34680272_1_big-data-global-economy-gartner. [2015-03-21].
(宋小華編發(fā))
Discussion about the Application and Potential Concerns of Dark Data Visualization
Deng Xiaoru Chen Yingyu
(Guangzhou Medical University, Guangzhou, Guangdong 510182, China)
AbstractBased on the introduction of a new conception"dark data" from internet, the authors described its civil and foreign research status along with its concern. Furthermore, analyzed its visualization and the released value respectively from the number and proportion, the quality and technical feasibility and made some advice and opinions for the legal risk or other risks of dark data. 10 refs.
KeywordsDark data. Visualization. Potential value. Rational development. Legal risk.
[中圖法分類號(hào)]G250.7
[文獻(xiàn)標(biāo)識(shí)碼]A
[文章編號(hào)]1003-7845(2016)03-0003-03
[作者簡(jiǎn)介]鄧小茹,陳穎瑜,副研究館員,現(xiàn)在廣州醫(yī)科大學(xué)圖書館工作。
[收稿日期]2015-09-06
*本文系廣東省文化廳、廣東圖書館學(xué)會(huì)2012年聯(lián)合資助項(xiàng)目“醫(yī)藥高校移動(dòng)圖書館建設(shè)研究”(GDTK1219)研究成果之一。
【大數(shù)據(jù)與微應(yīng)用專欄】