亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        從大數(shù)據(jù)特征看檔案界對于檔案大數(shù)據(jù)認知的誤區(qū)

        2021-03-02 07:51:15王居一
        檔案管理 2021年1期
        關鍵詞:檔案誤區(qū)大數(shù)據(jù)

        王居一

        摘? 要:本文認為檔案數(shù)據(jù)不具備多維度、完整性和實時性,將大量檔案數(shù)據(jù)稱之為檔案大數(shù)據(jù)是不準確的,甚至是錯誤的。大數(shù)據(jù)時代,檔案數(shù)據(jù)不能缺位,要使檔案數(shù)據(jù)成為真正意義上的大數(shù)據(jù),就應改變不能適應時代的固有模式與方法,積極主動融合到社會大數(shù)據(jù)之中。

        關鍵詞:大數(shù)據(jù);特征;檔案;檔案大數(shù)據(jù);誤區(qū)

        Abstract: This article believes that archive data does not have multi-dimensionality, completeness and real-time. It is inaccurate or even wrong to call a large amount of archive data as big archive data. In the era of big data, archival data cannot be absent. To make archival data into big data in the true sense, it is necessary to change the inherent patterns and methods that cannot adapt to the times and actively integrate it into social big data.

        Keywords: Big data; Characteristics; Archives; Archive big data; Misunderstanding

        大數(shù)據(jù)研究是當今檔案界最熱門的研究內(nèi)容之一。自2003年第一篇有關檔案大數(shù)據(jù)論文問世后,據(jù)從知網(wǎng)文獻數(shù)據(jù)庫中檢索統(tǒng)計,至今主題為“檔案大數(shù)據(jù)”的已有2436篇相關研究成果發(fā)表,18年間翻了超過11番。對這2436篇文獻再使用“檔案大數(shù)據(jù)”在題名中檢索得到64篇,僅占2.63%;如果對這2436篇文獻使用“檔案大數(shù)據(jù)”在全文中進行檢索就有549篇,占22.54%。就是說有1/5以上的作者將檔案數(shù)據(jù)視為大數(shù)據(jù)。這表明,有相當一部分研究者將檔案數(shù)據(jù)視為大數(shù)據(jù),或者等同于大數(shù)據(jù)。如,鄭金月認為:“從大數(shù)據(jù)的本質(zhì)分析,檔案數(shù)據(jù)無疑也是大數(shù)據(jù)”,“檔案數(shù)據(jù)最符合大數(shù)據(jù)本質(zhì)的真諦。”[1]秦利認為:“大數(shù)據(jù)就是檔案”[2]而這種認知是不準確的,本文就此作一些探討。

        1 大數(shù)據(jù)的四個特征

        對于大數(shù)據(jù),目前并沒有統(tǒng)一的定義,而對于大數(shù)據(jù)的特征,“當前,較為統(tǒng)一的認識是大數(shù)據(jù)有四個基本特征:數(shù)據(jù)規(guī)模大(Volume) ,數(shù)據(jù)種類多(Variety) ,數(shù)據(jù)要求處理速度快(Velocity) ,數(shù)據(jù)價值密度低(Value) ,即所謂的四V特性?!盵3]對于大數(shù)據(jù)的這四個特征,檔案界應當在數(shù)量、維度、完整、實時等四個方面進行理解。

        第一,數(shù)據(jù)量大。至于數(shù)據(jù)量多大才合適,從置信度的意義上看,數(shù)據(jù)至少要大到讓統(tǒng)計結(jié)果具有非常高的置信度。

        第二,多維度。多維度至少包括兩個方面,一是數(shù)據(jù)類型多。不僅有通常事先定義好的結(jié)構(gòu)化數(shù)據(jù),也有非結(jié)構(gòu)化的數(shù)據(jù),而且非結(jié)構(gòu)化的數(shù)據(jù)量更多。二是數(shù)據(jù)內(nèi)容種類多。如政府部門有政務信息數(shù)據(jù)、業(yè)務信息數(shù)據(jù)、政務媒體(網(wǎng)站、微博、公眾號等)信息數(shù)據(jù)、內(nèi)部管理信息數(shù)據(jù)、其他類信息數(shù)據(jù)等。

        第三,完整性。這是對“數(shù)據(jù)價值密度低”特征的檔案話語解讀。所謂“數(shù)據(jù)價值密度低”,是“從大數(shù)據(jù)整體角度出發(fā),為了保證數(shù)據(jù)信息的完整性,計算機會將數(shù)據(jù)的關聯(lián)內(nèi)容進行存儲,導致很多價值不高的信息被納入處理范圍,直接降低了數(shù)據(jù)的整體價值,造成數(shù)據(jù)信息的價值密度降低?!盵4]從檔案的角度看,只有數(shù)據(jù)完整,才能反映事物的細枝末節(jié),反映事物的真相。過去,在小數(shù)據(jù)和數(shù)據(jù)不易獲得的年代,只能采用抽樣的辦法來獲取,根本不可能做到完整,所以只能忽略。但只要是抽樣統(tǒng)計,就有小概率事件覆蓋不到,如果發(fā)生的事情正好落在那被忽略小概率事件上,那些不完整的數(shù)據(jù)就失去了作用。雖然,大數(shù)據(jù)的量大帶來大量可能沒有價值的信息,造成了數(shù)據(jù)價值密度低,但是,也應當看到,由于數(shù)據(jù)的完整,也使得不會讓任何一條有價值的信息漏掉。

        最后,實時性。大數(shù)據(jù)的價值就在于實時性,“數(shù)據(jù)不是靜止不動的,而是在互聯(lián)網(wǎng)絡中不斷流動,且通常這樣的數(shù)據(jù)價值是隨著時間推移而迅速降低,如果數(shù)據(jù)尚未得到有效的處理,就失去了價值,大量的數(shù)據(jù)就沒有意義?!盵5]要做到實時性,就必須對數(shù)據(jù)進行快速處理,這就是“數(shù)據(jù)要求處理速度快”?!按髷?shù)據(jù)要求數(shù)據(jù)在線開放,能實現(xiàn)實時動態(tài)數(shù)據(jù)處理,不在線的、不能實時處理的數(shù)據(jù)不屬于大數(shù)據(jù)?!盵6]

        2 檔案數(shù)據(jù)特征分析

        檔案數(shù)據(jù)是不是大數(shù)據(jù)呢?對照大數(shù)據(jù)的四個特征逐條分析一下。

        第一,關于數(shù)據(jù)量大。究竟多大的數(shù)據(jù)量算是大數(shù)據(jù)呢?“根據(jù)IDC 的定義至少要有超過100TB 的可供分析的數(shù)據(jù)”[7]才能算是大數(shù)據(jù)。那么,就某一個檔案室或者某一個檔案館保存的檔案數(shù)據(jù)達沒有達到這一數(shù)據(jù)規(guī)模呢?據(jù)統(tǒng)計,2017年,“全國數(shù)字化檔案資源達2243萬GB”,[8]當年,全國共有各級各類檔案館4210個,[9]另據(jù)粗略統(tǒng)計,各省、自治區(qū)、直轄市直屬機關檔案機構(gòu)95000個左右(2013年為95362個[10])。這樣,平均每個檔案館(室)有數(shù)字化檔案只有226GB,而100TB=102400GB,即每個檔案館(室)的檔案數(shù)據(jù)量離大數(shù)據(jù)的最低可供分析的數(shù)據(jù)量還差400多倍??梢哉f,從數(shù)據(jù)量來說,檔案數(shù)據(jù)離大數(shù)據(jù)還是有相當大的距離。

        第二,關于多維度。以環(huán)境大數(shù)據(jù)為例,“從數(shù)據(jù)種類來看,環(huán)境大數(shù)據(jù)涉及部門政務信息、環(huán)境質(zhì)量數(shù)據(jù)(大氣、水、土壤、輻射、聲、氣象等)、污染排放數(shù)據(jù)(污染源基本信息、污染源監(jiān)測、總量控制等各項環(huán)境監(jiān)管信息)、個人活動信息(個人用水量、用電量、廢棄物產(chǎn)生量等)等。各級政府部門、社會公眾、媒體、環(huán)保NGO 等都是可能的披露主體。它不僅包括關于事物物理、化學、生物等性質(zhì)和狀態(tài)的基本測量值,即可用二維表結(jié)構(gòu)進行邏輯表示的結(jié)構(gòu)數(shù)據(jù),也包括了隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)與傳感器飛速發(fā)展涌現(xiàn)的各種文檔、圖片、音頻、視頻、地理位置信息等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)?!盵11]大多數(shù)環(huán)保機構(gòu)檔案室很難將這些數(shù)據(jù)收集齊全。就目前,各單位檔案室說是綜合檔案室,其實都很難做到綜合。

        猜你喜歡
        檔案誤區(qū)大數(shù)據(jù)
        冬季洗澡的誤區(qū)
        海峽姐妹(2019年2期)2019-03-23 02:56:34
        三角恒等變換中的誤區(qū)警示
        2018年理財,要警惕這些誤區(qū)
        海峽姐妹(2018年2期)2018-04-12 07:13:37
        如何做好鄉(xiāng)鎮(zhèn)計劃生育檔案管理工作
        檔案的開發(fā)利用在供電公司全面管理中的作用
        淺談北京衛(wèi)視《檔案》的敘述方式
        新聞世界(2016年10期)2016-10-11 20:31:45
        新常態(tài)下高校檔案工作發(fā)展研究
        大學教育(2016年9期)2016-10-09 09:06:22
        基于大數(shù)據(jù)背景下的智慧城市建設研究
        科技視界(2016年20期)2016-09-29 10:53:22
        冬病夏治走出誤區(qū)才有效
        華人時刊(2016年13期)2016-04-05 05:50:15
        一本大道东京热无码中字 | 国产成人精品无码播放| 18禁成人黄网站免费观看| 国产白袜脚足j棉袜在线观看| 国产二级一片内射视频插放| 国产成人综合亚洲精品| 特级毛片a级毛片在线播放www| 无码精品一区二区免费AV| 国产精品久久久久免费a∨不卡| 亚洲av套图一区二区| 9l国产自产一区二区三区| 亚洲激情综合中文字幕| 老鲁夜夜老鲁| 日本最新免费二区三区| 精品麻豆国产色欲色欲色欲www| 漂亮人妻被黑人久久精品| 毛片无遮挡高清免费久久| 无码人妻少妇久久中文字幕| 91青青草视频在线播放| 国产91精品一区二区麻豆亚洲| 国产精品自线一区二区三区| 久久天天躁夜夜躁狠狠| 久久99精品九九九久久婷婷| 亚洲精品欧美二区三区中文字幕| 在线播放a欧美专区一区| 日本高清不在线一区二区色| 综合久久青青草免费观看视频| 日韩激情视频一区在线观看| 中文字幕乱码亚洲无限码| 无码人妻久久一区二区三区免费| 精品午夜福利1000在线观看| 亚洲av色香蕉一区二区蜜桃| 99热婷婷一区二区三区| 日本熟女中文字幕在线| 真人作爱免费视频| 欧美一片二片午夜福利在线快| 色欧美与xxxxx| 琪琪av一区二区三区| 99久久精品无码一区二区毛片| 亚洲国产成人片在线观看无码 | 亚洲成av人无码免费观看|