亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于企業(yè)海量電子文件的數(shù)據(jù)采集模型

        2018-05-08 13:20:44楊迪陳雪萍馮宇李沛斐陳風熙
        電子技術與軟件工程 2018年22期
        關鍵詞:電子文件數(shù)據(jù)采集

        楊迪 陳雪萍 馮宇 李沛斐 陳風熙

        摘要 文章在參考前人研究結果的基礎上,結合閉著多年的工作經驗,提出了企業(yè)海量電子文件數(shù)據(jù)采集模型,并詳細介紹了該系統(tǒng)的數(shù)據(jù)采集來源、數(shù)據(jù)預處理流程、數(shù)據(jù)清洗方法以及數(shù)據(jù)轉化功能等模塊,力求為企業(yè)海量電子文件數(shù)據(jù)的采集和管理提供可靠的參考依據(jù)。

        【關鍵詞】電子文件 數(shù)據(jù)采集 數(shù)據(jù)預處理數(shù)據(jù)清洗

        在互聯(lián)網技術日益完善、多媒體功能逐漸強大以及先進辦公軟件不斷普及等因素的共同作用下,電子文件已被廣泛運用于企業(yè)中,且因其與紙質文件相比,具有可塑性高、便捷性強以及傳遞速度快等優(yōu)點,有效的增強了文件在企業(yè)生存與發(fā)展中的價值,為企業(yè)及時獲取文件信息、全面運用信息資源等都創(chuàng)造了良好的環(huán)境。但是,隨著電子文件種類和涉及范圍不斷增多,企業(yè)傳統(tǒng)文件管理制度、管理方法以及管理軟件中存在的問題也在不斷顯現(xiàn)出來,嚴重制約著電子文件真實性、完整性以及及時性的提升,大大降低了電子文件的價值和使用價值。換而言之,要想增強電子文件的使用質量和利用效率,我們就必須要建立符合海量電子文件數(shù)據(jù)采集模型,因此,對本文進行深入的分析與研究具有十分重要的意義。

        1 電子文件數(shù)據(jù)采集來源

        文章對電子文件數(shù)據(jù)采集主要分為兩部分,一部分是通過爬蟲等系統(tǒng)采集的數(shù)據(jù),另一部分是企業(yè)現(xiàn)有的電子文件資料數(shù)據(jù)。這兩部分數(shù)據(jù)在被收集以后,并不能直接作為企業(yè)海量電子文件的數(shù)據(jù)源,需要通過數(shù)據(jù)預處理平臺進行數(shù)據(jù)的清洗,轉換和過濾,最終將完整的有價值的數(shù)據(jù)保存到企業(yè)電子文件數(shù)據(jù)路中。

        1.1 數(shù)據(jù)采集器

        數(shù)據(jù)采集器主要包含了調度器、采集器以及預處理三個部分:

        1.1.1 調度器

        調度采集和預處理器進行數(shù)據(jù)采集和預處理。調度方法可以采用定時、事件觸發(fā)方式。

        1.1.2 采集器

        (l)爬蟲系統(tǒng):自動抓取網頁及鏈接的網頁內容,適用于內外網網站Web內容的采集。

        (2) ETL程序:采用存儲過程、腳本或外部程序來讀取被采集系統(tǒng)的新數(shù)據(jù)。

        (3)上傳接收:個人整理或原創(chuàng)的文檔,通過上傳方式采集。

        1.1.3 預處理器

        完成對采集到數(shù)據(jù)的加工處理,轉換產生文庫需要的數(shù)據(jù)格式。

        (l)過濾器:將不符合條件的數(shù)據(jù)過濾掉,保證進入文庫數(shù)據(jù)的質量和價值。

        (2)清洗:處理臟數(shù)據(jù)。

        (3)轉換:數(shù)據(jù)編碼映射轉化;調用搜索和大數(shù)據(jù)引擎進行全文索引處理。

        1.2 數(shù)據(jù)采集來源

        企業(yè)電子文件數(shù)據(jù)主要來自以下三個渠道:

        (1)系統(tǒng)來源:主要是針對電子文件系統(tǒng)與檔案管理系統(tǒng)中面向全網開放的電子文件。結構化數(shù)據(jù),通過ETL工具采集數(shù)據(jù),非結構化數(shù)據(jù)通過文本信息分析技術進行采集;

        (2)個人來源:針對個人上傳的電子文件分為普通文件與私有文件,普通文件任何人可以檢索和閱讀,私有文件僅自己可見,針對私有的電子文件可以設置共享或是授權共享的功能;

        (3)外部來源:主要是引入外部的資源如:知網、萬方等外部資源,所有引入的資源面向所有用戶公開;個人來源和外部來源將會完善和豐富文庫的數(shù)據(jù)內容,增強其專業(yè)性,滿足員工對專業(yè)化文檔資料的需求。

        2 電子文件數(shù)據(jù)預處理平臺

        2.1 數(shù)據(jù)的預處理

        隨著電子信息化的發(fā)展,企業(yè)現(xiàn)存的電子文件數(shù)量越來越龐大,數(shù)據(jù)的種類繁多,不同系統(tǒng)中存儲的電子文件內容和格式都不盡相同,為了保證在企業(yè)數(shù)據(jù)庫中電子文件資料從數(shù)量和質量達到最優(yōu)的效果,所以需要將采集到的電子文件資料進行預處理,從而提高系統(tǒng)的性能和用戶的滿意度。預處理流程為:數(shù)據(jù)預處理是企業(yè)電子文件的數(shù)據(jù)準備工作,一方面保證企業(yè)電子文件數(shù)據(jù)的正確性和有效性,另一方面通過對數(shù)據(jù)格式和內容的調整,使數(shù)據(jù)更符合電子文件數(shù)據(jù)庫的需要。系統(tǒng)收集到元數(shù)據(jù)后,需要經過預處理平臺對數(shù)據(jù)進行處理,用全新的“數(shù)據(jù)模型”來組織原來的電子文件數(shù)據(jù),摒棄一些重復的、無效的垃圾數(shù)據(jù)。為企業(yè)電子文件數(shù)據(jù)庫提取干凈、準確、更有針對性的數(shù)據(jù)創(chuàng)造良好的環(huán)境,從而減少系統(tǒng)的數(shù)據(jù)處理量,提高使用效率,提高發(fā)現(xiàn)資料數(shù)據(jù)的準確度。

        2.2 數(shù)據(jù)清洗

        數(shù)據(jù)清洗是清除錯誤和不一致數(shù)據(jù)的過程,主要任務是過濾或者修改那些不符合要求的數(shù)據(jù)。將“臟數(shù)據(jù)”轉化為滿足數(shù)據(jù)質量或應用要求的數(shù)據(jù),從而提高數(shù)據(jù)集的數(shù)據(jù)質量。數(shù)據(jù)清洗需要解決的數(shù)據(jù)質量問題主要有空值問題,錯誤值問題和不一致的數(shù)據(jù)等。缺失值的清洗方法主要包括下面幾種:

        (1)忽略其屬性包括缺失值的記錄。

        (2)某些缺失值可以從本數(shù)據(jù)源或其他數(shù)據(jù)源推導出來。由于原始外部數(shù)據(jù)不同,錄入習慣不同,不同系統(tǒng)對記錄屬性的要求不同,導致同一實體對應的各個記錄缺失程度不同,通過清洗可以得到一條相對完整的記錄。

        (3)可用平均值、中間值、最大值、最小值或更為復雜的概率統(tǒng)計函數(shù)值代替缺失的值。

        (4)人工輸入一個可接受的值。對于大規(guī)模的數(shù)據(jù)量一般不采用該方法。錯誤值的檢測及清洗方法包括以下幾種:1利用統(tǒng)計分析或人工智能的方法檢測屬性可能的錯誤值或異常值。2使用簡單規(guī)則庫(常識性規(guī)則和業(yè)務特定規(guī)則等)檢測和修正錯誤。3使用不同屬性間的約束檢測和修正錯誤。第四,使用外部數(shù)據(jù)源檢測和修正錯誤。

        2.3 數(shù)據(jù)轉換

        從數(shù)據(jù)源中抽取的數(shù)據(jù)不一定完全滿足存儲的要求,例如數(shù)據(jù)格式的不一致、數(shù)據(jù)輸入錯誤、數(shù)據(jù)不完整等等,還要對采集到的數(shù)據(jù)進行數(shù)據(jù)轉換和加工,保證數(shù)據(jù)按共同理懈的業(yè)務需求轉換為目標數(shù)據(jù)結構。不一致數(shù)據(jù)轉換,這個過程是一個整合的過程,將不同業(yè)務系統(tǒng)的相同類型的數(shù)據(jù)統(tǒng)一,比如同一個分類數(shù)據(jù)增加分類編碼,這樣在抽取過來之后統(tǒng)一轉換成一個編碼。在數(shù)據(jù)結構中數(shù)據(jù)之間的關系通過轉換成線性關系存儲。線性表是一個比較靈活的數(shù)據(jù)結構,它的長度根據(jù)需要增長或縮短,也可以對線性表的數(shù)據(jù)元素進行不同的操作(如訪問數(shù)據(jù)元素、插入、刪除數(shù)據(jù)元素等)。

        3 結束語

        隨著企業(yè)電子文件的使用頻率和使用范圍不斷擴大,傳統(tǒng)電子文件數(shù)據(jù)采集系統(tǒng)中存在的弊端也在不斷凸顯,很難滿足企業(yè)對電子文件的管理需求。文章所提及的數(shù)據(jù)采集模型在提升電子文件管理質量和管理效率等方面都有著極為顯著的作用,值得我們在今后的工作中不斷推廣和使用。

        參考文獻

        [1]楊強,胡心宇.基于HBase的海量電子文件元數(shù)據(jù)管理的研究與實踐[J],貴州電力技術,2017,20 (10):69-73.

        [2]張琳.基于海量數(shù)據(jù)的市場投放策略研究[D].浙江理工大學,2018.

        [3]鄧芳.大型物聯(lián)網電子設備的海量數(shù)據(jù)高效挖掘方法研究[J].現(xiàn)代電子技術,2016, 39 (04): 159-162.

        猜你喜歡
        電子文件數(shù)據(jù)采集
        圖像電子文件的歸檔格式及其轉換研究
        檔案管理(2017年1期)2017-01-17 19:15:57
        電子文件檢查歸檔移交備份存儲機研究
        淺談電子文檔與紙質文檔在保護技術上的差異
        檔案管理中電子文件的存儲探究
        淺談電子文件的全過程管理
        CS5463在植栽用電子鎮(zhèn)流器老化監(jiān)控系統(tǒng)中的應用
        大數(shù)據(jù)時代高校數(shù)據(jù)管理的思考
        科技視界(2016年18期)2016-11-03 22:51:40
        鐵路客流時空分布研究綜述
        基于廣播模式的數(shù)據(jù)實時采集與處理系統(tǒng)
        軟件工程(2016年8期)2016-10-25 15:54:18
        通用Web表單數(shù)據(jù)采集系統(tǒng)的設計與實現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:52:53
        亚洲成人观看| 国产乱人偷精品人妻a片| 激情航班h版在线观看| 国产免费资源高清小视频在线观看 | 国产高清成人在线观看视频 | 播放灌醉水嫩大学生国内精品 | 国产麻豆精品久久一二三| av一区无码不卡毛片| 日韩色久悠悠婷婷综合| 一区二区精品国产亚洲| 日韩成人无码| AV无码中文字幕不卡一二三区| 国产三级在线观看高清| 人妻诱惑中文字幕在线视频| 99久久人妻精品免费二区| 加勒比无码专区中文字幕| 国产精品二区三区在线观看| 天天综合网网欲色| 人妻丰满熟妇av无码区免| 99riav精品国产| 日本免费看片一区二区三区| 国产成人亚洲综合无码品善网| 亚洲饱满人妻视频| 免费毛片一区二区三区女同| 91九色成人蝌蚪首页| 中文字幕一区二区三区日韩精品| 韩国精品一区二区三区| 成人免费毛片立即播放| 777精品出轨人妻国产| 日韩精品一区二区三区在线观看| 毛片av在线尤物一区二区| 国产精品内射久久一级二| 草草久久久无码国产专区| 在线毛片一区二区不卡视频| 午夜视频在线观看国产19| 东京道一本热中文字幕| 久久频道毛片免费不卡片| 牛仔裤人妻痴汉电车中文字幕| 丰满人妻被两个按摩师| 亚洲一区二区三区国产精华液| 日本变态网址中国字幕|