亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        從大數(shù)據(jù)特征看檔案界對于檔案大數(shù)據(jù)認知的誤區(qū)

        2021-03-02 07:51:15王居一
        檔案管理 2021年1期
        關鍵詞:檔案誤區(qū)大數(shù)據(jù)

        王居一

        摘? 要:本文認為檔案數(shù)據(jù)不具備多維度、完整性和實時性,將大量檔案數(shù)據(jù)稱之為檔案大數(shù)據(jù)是不準確的,甚至是錯誤的。大數(shù)據(jù)時代,檔案數(shù)據(jù)不能缺位,要使檔案數(shù)據(jù)成為真正意義上的大數(shù)據(jù),就應改變不能適應時代的固有模式與方法,積極主動融合到社會大數(shù)據(jù)之中。

        關鍵詞:大數(shù)據(jù);特征;檔案;檔案大數(shù)據(jù);誤區(qū)

        Abstract: This article believes that archive data does not have multi-dimensionality, completeness and real-time. It is inaccurate or even wrong to call a large amount of archive data as big archive data. In the era of big data, archival data cannot be absent. To make archival data into big data in the true sense, it is necessary to change the inherent patterns and methods that cannot adapt to the times and actively integrate it into social big data.

        Keywords: Big data; Characteristics; Archives; Archive big data; Misunderstanding

        大數(shù)據(jù)研究是當今檔案界最熱門的研究內(nèi)容之一。自2003年第一篇有關檔案大數(shù)據(jù)論文問世后,據(jù)從知網(wǎng)文獻數(shù)據(jù)庫中檢索統(tǒng)計,至今主題為“檔案大數(shù)據(jù)”的已有2436篇相關研究成果發(fā)表,18年間翻了超過11番。對這2436篇文獻再使用“檔案大數(shù)據(jù)”在題名中檢索得到64篇,僅占2.63%;如果對這2436篇文獻使用“檔案大數(shù)據(jù)”在全文中進行檢索就有549篇,占22.54%。就是說有1/5以上的作者將檔案數(shù)據(jù)視為大數(shù)據(jù)。這表明,有相當一部分研究者將檔案數(shù)據(jù)視為大數(shù)據(jù),或者等同于大數(shù)據(jù)。如,鄭金月認為:“從大數(shù)據(jù)的本質(zhì)分析,檔案數(shù)據(jù)無疑也是大數(shù)據(jù)”,“檔案數(shù)據(jù)最符合大數(shù)據(jù)本質(zhì)的真諦。”[1]秦利認為:“大數(shù)據(jù)就是檔案”[2]而這種認知是不準確的,本文就此作一些探討。

        1 大數(shù)據(jù)的四個特征

        對于大數(shù)據(jù),目前并沒有統(tǒng)一的定義,而對于大數(shù)據(jù)的特征,“當前,較為統(tǒng)一的認識是大數(shù)據(jù)有四個基本特征:數(shù)據(jù)規(guī)模大(Volume) ,數(shù)據(jù)種類多(Variety) ,數(shù)據(jù)要求處理速度快(Velocity) ,數(shù)據(jù)價值密度低(Value) ,即所謂的四V特性?!盵3]對于大數(shù)據(jù)的這四個特征,檔案界應當在數(shù)量、維度、完整、實時等四個方面進行理解。

        第一,數(shù)據(jù)量大。至于數(shù)據(jù)量多大才合適,從置信度的意義上看,數(shù)據(jù)至少要大到讓統(tǒng)計結(jié)果具有非常高的置信度。

        第二,多維度。多維度至少包括兩個方面,一是數(shù)據(jù)類型多。不僅有通常事先定義好的結(jié)構(gòu)化數(shù)據(jù),也有非結(jié)構(gòu)化的數(shù)據(jù),而且非結(jié)構(gòu)化的數(shù)據(jù)量更多。二是數(shù)據(jù)內(nèi)容種類多。如政府部門有政務信息數(shù)據(jù)、業(yè)務信息數(shù)據(jù)、政務媒體(網(wǎng)站、微博、公眾號等)信息數(shù)據(jù)、內(nèi)部管理信息數(shù)據(jù)、其他類信息數(shù)據(jù)等。

        第三,完整性。這是對“數(shù)據(jù)價值密度低”特征的檔案話語解讀。所謂“數(shù)據(jù)價值密度低”,是“從大數(shù)據(jù)整體角度出發(fā),為了保證數(shù)據(jù)信息的完整性,計算機會將數(shù)據(jù)的關聯(lián)內(nèi)容進行存儲,導致很多價值不高的信息被納入處理范圍,直接降低了數(shù)據(jù)的整體價值,造成數(shù)據(jù)信息的價值密度降低?!盵4]從檔案的角度看,只有數(shù)據(jù)完整,才能反映事物的細枝末節(jié),反映事物的真相。過去,在小數(shù)據(jù)和數(shù)據(jù)不易獲得的年代,只能采用抽樣的辦法來獲取,根本不可能做到完整,所以只能忽略。但只要是抽樣統(tǒng)計,就有小概率事件覆蓋不到,如果發(fā)生的事情正好落在那被忽略小概率事件上,那些不完整的數(shù)據(jù)就失去了作用。雖然,大數(shù)據(jù)的量大帶來大量可能沒有價值的信息,造成了數(shù)據(jù)價值密度低,但是,也應當看到,由于數(shù)據(jù)的完整,也使得不會讓任何一條有價值的信息漏掉。

        最后,實時性。大數(shù)據(jù)的價值就在于實時性,“數(shù)據(jù)不是靜止不動的,而是在互聯(lián)網(wǎng)絡中不斷流動,且通常這樣的數(shù)據(jù)價值是隨著時間推移而迅速降低,如果數(shù)據(jù)尚未得到有效的處理,就失去了價值,大量的數(shù)據(jù)就沒有意義?!盵5]要做到實時性,就必須對數(shù)據(jù)進行快速處理,這就是“數(shù)據(jù)要求處理速度快”?!按髷?shù)據(jù)要求數(shù)據(jù)在線開放,能實現(xiàn)實時動態(tài)數(shù)據(jù)處理,不在線的、不能實時處理的數(shù)據(jù)不屬于大數(shù)據(jù)?!盵6]

        2 檔案數(shù)據(jù)特征分析

        檔案數(shù)據(jù)是不是大數(shù)據(jù)呢?對照大數(shù)據(jù)的四個特征逐條分析一下。

        第一,關于數(shù)據(jù)量大。究竟多大的數(shù)據(jù)量算是大數(shù)據(jù)呢?“根據(jù)IDC 的定義至少要有超過100TB 的可供分析的數(shù)據(jù)”[7]才能算是大數(shù)據(jù)。那么,就某一個檔案室或者某一個檔案館保存的檔案數(shù)據(jù)達沒有達到這一數(shù)據(jù)規(guī)模呢?據(jù)統(tǒng)計,2017年,“全國數(shù)字化檔案資源達2243萬GB”,[8]當年,全國共有各級各類檔案館4210個,[9]另據(jù)粗略統(tǒng)計,各省、自治區(qū)、直轄市直屬機關檔案機構(gòu)95000個左右(2013年為95362個[10])。這樣,平均每個檔案館(室)有數(shù)字化檔案只有226GB,而100TB=102400GB,即每個檔案館(室)的檔案數(shù)據(jù)量離大數(shù)據(jù)的最低可供分析的數(shù)據(jù)量還差400多倍??梢哉f,從數(shù)據(jù)量來說,檔案數(shù)據(jù)離大數(shù)據(jù)還是有相當大的距離。

        第二,關于多維度。以環(huán)境大數(shù)據(jù)為例,“從數(shù)據(jù)種類來看,環(huán)境大數(shù)據(jù)涉及部門政務信息、環(huán)境質(zhì)量數(shù)據(jù)(大氣、水、土壤、輻射、聲、氣象等)、污染排放數(shù)據(jù)(污染源基本信息、污染源監(jiān)測、總量控制等各項環(huán)境監(jiān)管信息)、個人活動信息(個人用水量、用電量、廢棄物產(chǎn)生量等)等。各級政府部門、社會公眾、媒體、環(huán)保NGO 等都是可能的披露主體。它不僅包括關于事物物理、化學、生物等性質(zhì)和狀態(tài)的基本測量值,即可用二維表結(jié)構(gòu)進行邏輯表示的結(jié)構(gòu)數(shù)據(jù),也包括了隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)與傳感器飛速發(fā)展涌現(xiàn)的各種文檔、圖片、音頻、視頻、地理位置信息等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)?!盵11]大多數(shù)環(huán)保機構(gòu)檔案室很難將這些數(shù)據(jù)收集齊全。就目前,各單位檔案室說是綜合檔案室,其實都很難做到綜合。

        猜你喜歡
        檔案誤區(qū)大數(shù)據(jù)
        冬季洗澡的誤區(qū)
        海峽姐妹(2019年2期)2019-03-23 02:56:34
        三角恒等變換中的誤區(qū)警示
        2018年理財,要警惕這些誤區(qū)
        海峽姐妹(2018年2期)2018-04-12 07:13:37
        如何做好鄉(xiāng)鎮(zhèn)計劃生育檔案管理工作
        檔案的開發(fā)利用在供電公司全面管理中的作用
        淺談北京衛(wèi)視《檔案》的敘述方式
        新聞世界(2016年10期)2016-10-11 20:31:45
        新常態(tài)下高校檔案工作發(fā)展研究
        大學教育(2016年9期)2016-10-09 09:06:22
        基于大數(shù)據(jù)背景下的智慧城市建設研究
        科技視界(2016年20期)2016-09-29 10:53:22
        冬病夏治走出誤區(qū)才有效
        華人時刊(2016年13期)2016-04-05 05:50:15
        日本理论片一区二区三区| 国产产区一二三产区区别在线| 国产av无码专区亚洲av极速版| 久久香蕉成人免费大片| 中国少妇和黑人做爰视频 | 日韩精品视频免费网站| 强奷乱码中文字幕| 亚洲AV成人无码久久精品老人| 免费无码黄网站在线观看| 国产精品一二三区亚洲| 欧美老熟妇乱xxxxx| 少妇厨房愉情理伦片免费| 色婷婷色99国产综合精品| 久久国产精品美女厕所尿尿av| 超碰色偷偷男人的天堂| 无码人妻一区二区三区免费| 素人激情福利视频| 国产亚洲精品90在线视频| 玩中年熟妇让你爽视频| 欧美自拍丝袜亚洲| 激情视频国产在线观看| 欧美国产激情18| 国产精品久久久久久无码| 69av视频在线| 中文字幕亚洲入口久久| 亚洲日韩av一区二区三区中文| 色窝窝在线无码中文| 青青草久热手机在线视频观看| 亚洲精品国产av成人精品| 无码毛片视频一区二区本码| 国产人成亚洲第一网站在线播放| 午夜视频一区二区在线观看| 国产果冻豆传媒麻婆精东| 日韩精品无码一区二区三区免费| 日本护士一区二区三区高清热线| 一区二区三区人妻av| 污污内射在线观看一区二区少妇| 高清国产美女一级a毛片在线| 男人天堂亚洲一区二区| 熟女少妇内射日韩亚洲| 亚洲成a人片在线网站|