亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)治理中數(shù)據(jù)智能分類技術(shù)的應(yīng)用研究

        2020-08-04 09:29:38李柳音
        衛(wèi)星電視與寬帶多媒體 2020年9期
        關(guān)鍵詞:數(shù)據(jù)治理應(yīng)用研究

        李柳音

        【摘要】由于許多企業(yè)存在數(shù)據(jù)資產(chǎn)過量的現(xiàn)象,治理起來較為繁瑣復(fù)雜,所以出現(xiàn)了一種基于數(shù)據(jù)智能分類技術(shù)的數(shù)據(jù)處理方法。先借助于數(shù)據(jù)智能分類技術(shù)對企業(yè)的數(shù)據(jù)展開分類,接著運用關(guān)鍵詞提取方法對數(shù)據(jù)展開關(guān)鍵詞提取,然后聯(lián)系專家的評判建議來確立每一類數(shù)據(jù)中可表現(xiàn)當(dāng)下類別的關(guān)鍵詞,同時做出敏感度標(biāo)記,以此來處理企業(yè)數(shù)據(jù)量級過盛問題,查找出當(dāng)中的敏感性數(shù)據(jù)。在這一背景態(tài)勢下,本文展開數(shù)據(jù)智能分類技術(shù)在數(shù)據(jù)治理當(dāng)中的運用分析,以為業(yè)內(nèi)人士提供可鑒參考。

        【關(guān)鍵詞】數(shù)據(jù)治理;智能分類技術(shù);應(yīng)用研究

        中圖分類號:TN01 ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A ? ? ? ? ? ? ? 文章編號:1673-0348(2020)09-015-03

        [Absrtact] due to the fact that many enterprises have excessive data assets and the management is complicated, a data processing method based on data intelligent classification technology has emerged. First, the data of the enterprise is classified by means of the data intelligent classification technology, then the keyword extraction method is used to extract the data, and then the expert's evaluation suggestions are contacted to establish the keywords that can represent the current category in each type of data, and at the same time, the sensitivity mark is made, so as to deal with this paper analyzes the application of data intelligent classification technology in data governance to provide reference for the industry.

        [Key words]data governance; intelligent classification technology; Application Research

        如今社會訊息化速度加快,網(wǎng)絡(luò)化發(fā)展迅捷,數(shù)據(jù)呈現(xiàn)爆炸式增長。全世界的數(shù)據(jù)量大概每兩年漲一倍,這表示人類在近兩年間產(chǎn)生形成的數(shù)據(jù)總量和此前產(chǎn)生形成的數(shù)據(jù)總量相當(dāng)。按照IDC數(shù)據(jù)顯示,到2020年底,全世界會共掌控有35ZB的數(shù)據(jù)量,比2010年數(shù)據(jù)量上漲了大約30多倍。大數(shù)據(jù)一方面為大眾帶來極大的便利性,一方面也造成了訊息的安全和隱私問題。像其他訊息一樣,大數(shù)據(jù)在儲存、處理、傳輸當(dāng)中會存在大量的安全風(fēng)險,伴隨而來的管理、監(jiān)管要求也越來越高越來越嚴(yán)苛。信息安全國際標(biāo)準(zhǔn)表示,不同數(shù)據(jù)的價值性是截然不同的,價值越高的數(shù)據(jù)越需要更為嚴(yán)苛的保護(hù)。國資委《中央企業(yè)商業(yè)秘密保護(hù)暫行規(guī)定》中明確表示要把數(shù)據(jù)進(jìn)行分類化、分級式管理,同時加以標(biāo)識。銀監(jiān)會《十二五信息科技發(fā)展規(guī)劃監(jiān)管指導(dǎo)意見》中也明確表示要推動信息資產(chǎn)分類、分級管理的發(fā)展進(jìn)度。所以在大數(shù)據(jù)時代下,企業(yè)亟需進(jìn)行數(shù)據(jù)治理。

        1. 數(shù)據(jù)治理相關(guān)理論簡述

        1.1 數(shù)據(jù)治理的概念

        最近幾年伴隨著大數(shù)據(jù)時代的發(fā)展,各大企事業(yè)單位都累積了大量的數(shù)據(jù)資源,社會各界也都意識到這些累積的海量數(shù)據(jù)資源具備可利用價值,并著手進(jìn)行對數(shù)據(jù)資源的深層次挖掘和分析,建立了具備有企業(yè)特色的知識數(shù)據(jù)。數(shù)據(jù)是一個企業(yè)最為關(guān)鍵的資產(chǎn)之一,如今怎樣盤活企業(yè)內(nèi)部數(shù)據(jù)資產(chǎn),挖掘數(shù)據(jù)資產(chǎn)的深層次價值是一項亟待完善的業(yè)務(wù),自保值朝著增值跨越的目標(biāo)也發(fā)展為當(dāng)下企業(yè)數(shù)據(jù)治理工作的首要任務(wù)。數(shù)據(jù)治理工作內(nèi)容有多種,包括有對數(shù)據(jù)資產(chǎn)的搜集、處理、儲存、運用、核實、監(jiān)管等等多項。數(shù)據(jù)治理是企事業(yè)單位為了增強數(shù)據(jù)資產(chǎn)質(zhì)量、促進(jìn)數(shù)據(jù)交融、充分施展數(shù)據(jù)資產(chǎn)的內(nèi)在價值而建立的一套體系化技術(shù)方式、規(guī)范準(zhǔn)則、管理制度。

        1.2 數(shù)據(jù)治理的價值性

        因為數(shù)據(jù)生產(chǎn)源頭變得多元化,數(shù)量銳增且結(jié)構(gòu)差異化較大,同時系統(tǒng)更新升級的速度加快,技術(shù)的運用頻度也明顯提高,所以令不同的數(shù)據(jù)源或者相同的數(shù)據(jù)源間產(chǎn)生了矛盾和問題,加上數(shù)據(jù)搜集、集成是多個團(tuán)隊協(xié)作的結(jié)果,這一過程也是增加了數(shù)據(jù)處理中引發(fā)問題數(shù)據(jù)的幾率性。運用傳統(tǒng)數(shù)據(jù)人工錯誤檢測修復(fù)或其他程序進(jìn)行解決,很明顯是完全跟不上大數(shù)據(jù)環(huán)境之下的各類復(fù)雜的數(shù)據(jù)問題的。所以怎樣確保數(shù)據(jù)的完整、數(shù)據(jù)質(zhì)量的真實穩(wěn)妥,創(chuàng)建高效數(shù)據(jù)治理底層解決體系是非常有必要的。

        1.3 數(shù)據(jù)治理的體系框架

        1.3.1 數(shù)據(jù)模型管理

        這一模型包含有概念數(shù)據(jù)模型、邏輯數(shù)據(jù)模型兩類??梢詫?shù)據(jù)源展開統(tǒng)一化管理,多是運用可視化方法來管理異構(gòu)數(shù)據(jù)源,內(nèi)容包含各個數(shù)據(jù)源的物理儲存地址、認(rèn)證鑒權(quán)訊息等,規(guī)避了傳統(tǒng)管理方法中要采用諸多個不同客戶端操作的不足。也可以用可視化語言來定義模型的概念,按照顯示訴求,拓展出更符合客戶業(yè)務(wù)語言的類型。

        1.3.2 進(jìn)行數(shù)據(jù)血緣管理

        血緣、影響分析管理目標(biāo)是借助于數(shù)據(jù)血統(tǒng)追蹤,于分布數(shù)據(jù)共享過程中處理數(shù)據(jù)的質(zhì)量、版本等多方面訊息。血緣分析即對來源加以溯源,來測量數(shù)據(jù)是否可信以及質(zhì)量如何。影響力分析指的是自特定模型著手,找尋倚重這一實體的處理過程模型。比如可采取遞歸形式加以尋找處理。

        1.3.3 數(shù)據(jù)質(zhì)量管理

        數(shù)據(jù)質(zhì)量管理包括數(shù)據(jù)絕對質(zhì)量管理、過程質(zhì)量管理。在數(shù)據(jù)質(zhì)量稽核方面,要提供自統(tǒng)一管理數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范輻射至每一數(shù)據(jù)字段的質(zhì)量屬性的能力以及數(shù)據(jù)質(zhì)量稽核配置,來保障輻射行業(yè)的質(zhì)量標(biāo)準(zhǔn),同時保障數(shù)據(jù)在轉(zhuǎn)換、儲存、傳輸?shù)冗^程中不會發(fā)生錯誤等等。數(shù)據(jù)質(zhì)量回溯方面,需對數(shù)據(jù)質(zhì)量稽核發(fā)覺的問題展開根本性溯源分析和維護(hù),如此保障歷史經(jīng)驗、數(shù)據(jù)累積的準(zhǔn)確性,從而推進(jìn)指導(dǎo)管理的發(fā)展。

        1.3.4 數(shù)據(jù)安全管理

        主要處理的是數(shù)據(jù)儲存、運用、交換當(dāng)中的安全問題。具體表現(xiàn)下四點上,其一數(shù)據(jù)運用的安全性,如數(shù)據(jù)儲存、訪問、權(quán)限管控。其二數(shù)據(jù)隱私問題,如銀行賬號等訊息有無加密,以防止被非法訪問。其三訪問權(quán)限管理。其四數(shù)據(jù)安全審計,數(shù)據(jù)修訂、運用等步驟中軍需設(shè)置審計方法,事后予以審計和究責(zé)。

        2. 數(shù)據(jù)智能分類技術(shù)的具體方法和過程分析

        本文把自然語言處理技術(shù)運用到數(shù)據(jù)治理當(dāng)中,借助數(shù)據(jù)智能分類技術(shù)對企業(yè)的資產(chǎn)展開數(shù)據(jù)治理工作。其一,對企業(yè)當(dāng)中有待分類的數(shù)據(jù)通過智能分類方法加以分類,其二采用關(guān)鍵詞提取技術(shù)來對每一類數(shù)據(jù)加以關(guān)鍵詞提取,然后聯(lián)系專家的判斷來確立每一類數(shù)據(jù)當(dāng)中可用作甄別當(dāng)下分類的關(guān)鍵詞,同時對敏感度予以標(biāo)注。另外本文采取樸素葉貝斯、SVM算法效果比較展開對數(shù)據(jù)智能分類算法的篩選,結(jié)果顯示后者在關(guān)鍵詞提取當(dāng)中的精確度更高、召回率更強。

        2.1 待分類數(shù)據(jù)

        待分類數(shù)據(jù),指的是企業(yè)當(dāng)中那些有待整理的過量數(shù)據(jù),比如分布于企業(yè)服務(wù)器、郵件、數(shù)據(jù)庫、終端等多地的一些數(shù)據(jù),或齊整或雜亂,均在等待被整理和挖掘。

        2.2 數(shù)據(jù)智能分類

        數(shù)據(jù)智能分類是運用智能分類技術(shù)把待分類數(shù)據(jù)整理成不同的類別,比如把企業(yè)當(dāng)中那些雜亂的、無序的、過多的數(shù)據(jù),整理分成專利、企業(yè)訊息、審計稽查報告、公文、圖紙、財務(wù)數(shù)據(jù)等多個不同類型的數(shù)據(jù)。具體的步驟如下。

        2.2.1 進(jìn)行預(yù)處理

        文檔數(shù)據(jù)預(yù)處理包含了對文檔的切分、文本的分詞、去停用詞等幾個步驟。如果文檔集合是一個單獨性文件,全部文章都被儲存在這一文件中時,可進(jìn)行文檔切分,來把當(dāng)中的文章提取出來獨立的儲存于一個文件中。換句話講,單一文件的文檔集合當(dāng)中,各個文章間會采用不同的標(biāo)記加以區(qū)分,例如特定的符號或者空行等。文檔分詞是把文檔中具備獨立型含義的詞匯予以單獨匯總出來。去停用詞是因為并非文本中每一個單詞都可對該文檔進(jìn)行代表和體現(xiàn),所以要將這些詞自文本當(dāng)中除去。

        2.2.2 特征的表示與提取

        其主要功用是提取足以表現(xiàn)文檔核心關(guān)鍵訊息的詞匯,通過一定的特征項來對文檔予以代表。文本挖掘之時要對這些特征予以處理,進(jìn)而完成對于非結(jié)構(gòu)化文本的處理,此為非結(jié)構(gòu)化朝著結(jié)構(gòu)化轉(zhuǎn)型的一大必經(jīng)步驟。在詞條權(quán)值的處理上,本文選用的是TF IDF方法。

        2.2.3 特征匹配、分類

        文本轉(zhuǎn)作向量方式,且經(jīng)過特征提取之后,則可展開分類挖掘了,也就是特征匹配工作。本文選用文獻(xiàn)檢索技術(shù)相似度法。假定樣本文檔是U,待學(xué)習(xí)文檔是V,其相似度可以通過向量夾角度數(shù)來進(jìn)行衡量,簡言之,夾角愈小,相似度愈高。

        2.2.4 文本分類體系

        智能分類算法篩選當(dāng)中,應(yīng)用頻率最高的分類算法有兩種,即為樸素貝葉斯算法、SVM算法。前者是借助于計算向量分類至兩大類別中的機率值來統(tǒng)計分類結(jié)果。后者則是一種在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上建立起來的模式識別方法。該方法最早誕生于1995年,在分類領(lǐng)域中運用價值非常高。

        2.3 關(guān)鍵詞提取

        關(guān)鍵詞提取,指的是不同類別數(shù)據(jù)當(dāng)中查找出定位最精準(zhǔn)、權(quán)重比例最高、區(qū)分力最強的關(guān)鍵詞,借助于自然語言處理技術(shù),對分類數(shù)據(jù)文本內(nèi)容加以切詞,采用機器統(tǒng)計,實現(xiàn)對關(guān)鍵詞的自動提取。候選關(guān)鍵詞提取之時是進(jìn)行自動排序的,依靠下述幾點展開,其一指定分類中出現(xiàn)次數(shù),出現(xiàn)次數(shù)愈多,排序則愈居于前列;其二,其他分類中的出現(xiàn)次數(shù),次數(shù)愈少,排序愈居前;其三關(guān)鍵詞的長度,長度愈長,排序愈居前。就像能源行業(yè)市場分析報告當(dāng)中,關(guān)鍵詞特征提取時,原油期貨價格必然是排在期貨價格之前的。

        2.4 專家判斷結(jié)果

        專家按照軟件給出的統(tǒng)計數(shù)據(jù)、評定的分?jǐn)?shù),聯(lián)系自我專業(yè)的知識儲備,自對每一個類別候選關(guān)鍵詞列表中篩選出的可用作甄別當(dāng)下分類的關(guān)鍵詞,展開敏感度標(biāo)注。實現(xiàn)對企業(yè)數(shù)據(jù)的分級、分類管理,建立健全按照數(shù)據(jù)敏感度差異訂立的截然不同的保護(hù)制度。

        3. 實驗數(shù)據(jù)結(jié)果研究

        實驗數(shù)據(jù)挑選的十大類別的文檔數(shù)據(jù),包含合同類、專利類等,每一類的樣本數(shù)量大概在85篇左右,即合計850篇文檔,把這些文檔散布于企業(yè)內(nèi)服務(wù)器、郵件、數(shù)據(jù)庫、終端等當(dāng)中。采用訊息檢索領(lǐng)域的評價準(zhǔn)則對數(shù)據(jù)分類展開評價,即精確率P、召回率R、評測值F。具體公式為:P=A(AцB) R=A/(AцC) F=2*P*R*(P+R),當(dāng)中,A指的是正確分類的文檔數(shù)量,B指的是分類失誤的文檔數(shù)量。C指的是文檔本應(yīng)分在這一類,但卻并未劃分到這一類當(dāng)中的文檔數(shù)量。文章采用樸素貝葉斯、SVM兩類算法展開分類,具體的實驗結(jié)果詳見表1。

        如表1當(dāng)中,相較于樸素貝葉斯,SVM算法精準(zhǔn)率、召回率都要偏高許多,而這也證明,SVM算法在數(shù)據(jù)智能分類當(dāng)中效果更佳。

        4. 結(jié)語

        為了處理大數(shù)據(jù)時代企事業(yè)單位數(shù)據(jù)資產(chǎn)引發(fā)的一些問題和不足,本文應(yīng)用自然語言處理技術(shù)來展開數(shù)據(jù)治理工作,也就是借助于數(shù)據(jù)智能分類技術(shù)對企業(yè)的超多數(shù)據(jù)展開分類統(tǒng)計,運用關(guān)鍵詞提取方式對每一個類別的數(shù)據(jù)展開關(guān)鍵詞提取,最終聯(lián)系專家的判斷來對每個類別中關(guān)鍵詞數(shù)據(jù)予以確立,同時加以敏感度標(biāo)注。借助于上述步驟和方法完成對企業(yè)數(shù)據(jù)資產(chǎn)的分級化、分類式管理,幫助企業(yè)建立健全的數(shù)據(jù)治理系統(tǒng)。本文選用Naive Bayes(樸素貝葉斯)、SVM(支持向量機)兩種算法展開核算,最終發(fā)覺后者在數(shù)據(jù)智能分類當(dāng)中的效果更優(yōu)。

        參考文獻(xiàn)

        [1]馮登國,張敏,李昊.大數(shù)據(jù)安全與隱私保護(hù)[J].計算機學(xué)報.2017(05)

        [2]張偉麗,馮偉.萬物互聯(lián)網(wǎng)帶來的新風(fēng)險及其技術(shù)對策[J].信息安全與通信保密.2018(4)

        [3]李振,鮑宗豪.云治理:大數(shù)據(jù)時代社會治理的新模式[J].天津社會科學(xué).2018(33)

        猜你喜歡
        數(shù)據(jù)治理應(yīng)用研究
        基于本體的企業(yè)運營數(shù)據(jù)治理
        云端數(shù)據(jù)治理初探
        現(xiàn)代機械制造工藝與精密加工技術(shù)的應(yīng)用分析
        “黑農(nóng)”大豆育種技術(shù)及應(yīng)用研究
        進(jìn)駐數(shù)字課堂的新興教學(xué)媒體
        AG接入技術(shù)在固網(wǎng)NGN的應(yīng)用研究
        空域分類關(guān)鍵技術(shù)及應(yīng)用研究
        分層教學(xué),兼顧全體
        考試周刊(2016年76期)2016-10-09 08:38:18
        運用流程化手段提升資產(chǎn)管理水平
        大數(shù)據(jù)治理模型與治理成熟度評估研究
        亚洲AV成人无码天堂| 亚洲精品成人专区在线观看| 久久精品爱国产免费久久| 人妖系列在线免费观看| 男人天堂这里只有精品| 亚洲av日韩av在线观看| 欧美人与动牲交片免费| 激情综合五月天开心久久| 亚洲av在线观看播放| 中文字幕乱码高清完整版| 日产无人区一线二线三线新版 | 国产成人精品2021| 亚洲av日韩av永久无码色欲| 国产成人福利在线视频不卡| 三级网站亚洲三级一区| 手机看黄av免费网址| 蜜臀aⅴ国产精品久久久国产老师 国产精品久久婷婷六月丁香 | 亚洲免费视频网站在线| 偷拍一区二区三区黄片| 成人无码av免费网站| 亚洲视频一区| 98精品国产高清在线xxxx| 精品极品一区二区三区| 国产特级毛片aaaaaa视频 | 97久久综合区小说区图片专区| 亚洲不卡av二区三区四区| 国产丝袜美女| 亚洲国产理论片在线播放| 中文字幕日本人妻一区| 国产亚洲精品视频一区二区三区| 中文字幕av免费专区| 亚洲AV一二三四区四色婷婷| 97久久国产精品成人观看| 日本韩国男男作爱gaywww| 亚洲中文字幕无码一区| 欧美熟妇与小伙性欧美交| 人妻少妇精品视中文字幕免费| 中文字幕日韩一区二区不卡| 免费99视频| 久久久精品网站免费观看| 又大又粗欧美黑人aaaaa片 |