亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)技術(shù)與檔案數(shù)據(jù)挖掘

        2021-04-14 20:38:18鄒彩霞
        卷宗 2021年11期

        鄒彩霞

        (單縣社會保險事業(yè)服務(wù)中心,山東 菏澤 274300)

        隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)挖掘技術(shù)在文件管理中的應(yīng)用將進入一個新的發(fā)展時期。檔案學界早就提出了知識管理和知識發(fā)掘,但知識發(fā)掘仍然停留在概念和理論研究階段。大數(shù)據(jù)挖掘,即從大數(shù)據(jù)挖掘知識的大數(shù)據(jù)挖掘技術(shù),有效地解決數(shù)據(jù)與知識之間的差距,是將數(shù)據(jù)轉(zhuǎn)化為知識的有效途徑。因此,檔案學研究者認為,“檔案的現(xiàn)有工作將轉(zhuǎn)移到檔案資源的數(shù)據(jù)分析、數(shù)據(jù)挖掘方向,對大量數(shù)據(jù)的分析處理將成為檔案的主要工作”,“檔案信息服務(wù)的基本基礎(chǔ)不再是搜索,而是智能化的數(shù)據(jù)挖掘”。

        大數(shù)據(jù)時代對數(shù)據(jù)挖掘技術(shù)的根本性變化使數(shù)據(jù)的深度挖掘成為可能,對大量數(shù)據(jù)進行分析和智能挖掘,從管理角度得到最佳結(jié)果,數(shù)據(jù)必須全面、穩(wěn)定、有價值,對數(shù)據(jù)進行深度挖掘是必要的。

        1 數(shù)據(jù)深度挖掘是將大容量數(shù)據(jù)技術(shù)應(yīng)用于檔案管理的主要特征

        數(shù)據(jù)挖掘是對大量數(shù)據(jù)建模,通過數(shù)學模型整理和分析企業(yè)海量數(shù)據(jù),使企業(yè)能夠理解不同的客戶或不同的市場部門的技術(shù)。從海量數(shù)據(jù)中找到企業(yè)所需知識的技術(shù)方法是相同的。數(shù)據(jù)深度挖掘是對數(shù)據(jù)建模、數(shù)據(jù)分類、統(tǒng)計分類、尋找數(shù)據(jù)分布相關(guān)生的過程,也是探索規(guī)律的過程。例如,檔案管理員想做好文件編制研究主題。不僅需要對用戶進行深入挖掘,包括文件卷數(shù)、文件使用次數(shù)、復制文件數(shù)、文件發(fā)行證明數(shù),還需要用戶訪問記錄,包括網(wǎng)頁上使用的關(guān)鍵字、下載記錄等。用戶應(yīng)利用網(wǎng)頁時間和頻率等信息進行深度挖掘后再利用。其次,根據(jù)檔案用戶需求特點預測未來趨勢,結(jié)合社會熱點選定文件編輯標題,讓文件編輯部門拿出用戶滿意度的編輯成果。對于文件利用,可以深入挖掘文件使用登記數(shù)據(jù)庫,分別選擇不同方面的數(shù)據(jù)進行建模,掌握不同文件利用形式的變化趨勢,分析和預測文件利用趨勢,將高頻率文件的全文數(shù)字化,提高文件利用效率,起到保護文件原件的作用。

        因此,檔案數(shù)據(jù)的深度挖掘是大數(shù)據(jù)時代的主要特征,檔案學的發(fā)展過程告訴我們,所有主要技術(shù)變化都必然會影響檔案學的發(fā)展,例如計算機及網(wǎng)絡(luò)技術(shù)的引進。引起了文件管理理念和實踐的變化,改變了文件和檔案的處理過程。大數(shù)據(jù)技術(shù)對歸檔數(shù)據(jù)的深入挖掘為文件管理過程從粗放到精細化提供了可能性。

        2 大數(shù)據(jù)技術(shù)通過對文件數(shù)據(jù)的深度挖掘,精細化文件管理模型

        大數(shù)據(jù)挖掘技術(shù)以傳統(tǒng)數(shù)據(jù)挖掘為基礎(chǔ),利用數(shù)據(jù)倉庫,建立“泛關(guān)系”聚合分類模型,采用海量數(shù)據(jù)分析方法,機器和人類一樣本具有意義的知識,提供公開信息的視覺視圖,可以說是傳統(tǒng)數(shù)據(jù)挖掘方法的深化。由中國人民大學網(wǎng)絡(luò)和移動數(shù)據(jù)管理研究所開發(fā)的ScholarSpace,大型數(shù)據(jù)處理的最基本流程包括數(shù)據(jù)源、數(shù)據(jù)提取和集成、數(shù)據(jù)分析、數(shù)據(jù)解釋等流程。大型數(shù)據(jù)技術(shù)對存檔數(shù)據(jù)挖掘由數(shù)據(jù)收集層、數(shù)據(jù)整理層、數(shù)據(jù)分析層、數(shù)據(jù)展示層組成。

        1)數(shù)據(jù)收集層收集高質(zhì)量的存檔數(shù)據(jù),為文件管理細分奠定基礎(chǔ)。數(shù)據(jù)收集是大容量數(shù)據(jù)技術(shù)處理過程中最基本的步驟,高質(zhì)量數(shù)據(jù)是大容量數(shù)據(jù)技術(shù)發(fā)揮性能的前提,大容量數(shù)據(jù)技術(shù)只能在高質(zhì)量、大容量的數(shù)據(jù)環(huán)境中提取隱含和有用的信息。大容量數(shù)據(jù)具有實時和動態(tài)特性,因此“在線”、“近線”和“離線”的各種數(shù)字資源都是收集對象。為了使獲得的數(shù)據(jù)更具代表性,獲取數(shù)據(jù)信息的方法尤為重要。數(shù)據(jù)收集層收集來自不同數(shù)據(jù)源的數(shù)據(jù),準備歸檔數(shù)據(jù)挖掘的后續(xù)工作[1]。

        2)數(shù)據(jù)清理層將更改現(xiàn)有的數(shù)據(jù)處理方式,以突出文件管理微調(diào)過程。通過多種渠道獲得的存檔數(shù)據(jù)種類復雜,結(jié)構(gòu)多樣,可以通過處理、合并和存儲實現(xiàn),首先,將結(jié)構(gòu)復雜的數(shù)據(jù)轉(zhuǎn)換為單個或容易處理的數(shù)據(jù)?,F(xiàn)代互聯(lián)網(wǎng)應(yīng)用呈現(xiàn)出半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)大幅增長的趨勢,這些資源將成為關(guān)口的重要來源。例如,文件系統(tǒng)的日志數(shù)據(jù)運行等數(shù)據(jù)需要轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),形成文件集成語言。二是對收集到的數(shù)據(jù)進行“去噪”和“清洗”,以確保數(shù)據(jù)的質(zhì)量和可靠性。因為原始數(shù)據(jù)有噪音數(shù)據(jù)、重復數(shù)據(jù)等句子,所以為了提高要發(fā)掘的數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進行分析、清理和重組。第三,存儲整理后的數(shù)據(jù),按類別放置專業(yè)的數(shù)據(jù)群,減少數(shù)據(jù)查詢和訪問時間,加快數(shù)據(jù)提取。三大數(shù)據(jù)技術(shù):從橫看檔案數(shù)據(jù)的深度挖掘、文件管理微調(diào)、最大數(shù)據(jù)技術(shù)在文件管理中的應(yīng)用兩個方向。以大型數(shù)據(jù)挖掘技術(shù)為中心,從數(shù)據(jù)收集、整理、分析、展示等技術(shù)解決方案縱向來看,以數(shù)據(jù)產(chǎn)品為中心,逐步進行檔案資源挖掘、用戶數(shù)據(jù)挖掘和關(guān)系洞察力及趨勢預測。大容量數(shù)據(jù)技術(shù)通過對檔案數(shù)據(jù)的深度挖掘,優(yōu)化對檔案資源和用戶需求的雙向控制,強調(diào)管理精細化趨勢。

        3 文件資源挖掘

        由于缺乏全面的數(shù)據(jù)挖掘和深度集成,歸檔資源存儲集中在缺乏輕量級深度挖掘的問題上,因此,通過對歸檔資源數(shù)據(jù)的深度挖掘,證明數(shù)據(jù)價值,創(chuàng)造新的價值。第一,大數(shù)據(jù)時代要樹立“大檔案”工作理念,重視數(shù)據(jù)積累,不僅要建立檔案資源體系,還要建立數(shù)據(jù)資源體系概念。其次,創(chuàng)建共享歸檔數(shù)據(jù)庫。以省為單位建立集中、規(guī)范、共享的存檔數(shù)據(jù)存儲庫,使每個存檔集合相互連接。成為內(nèi)容豐富、不受物理存儲限制的信息互聯(lián)共享、歸檔、數(shù)據(jù)資源網(wǎng)絡(luò)。最后,利用云計算:計算平臺和處理技術(shù),建立可用于實時接收歸檔數(shù)據(jù)或?qū)Ψ菍崟r數(shù)據(jù)進行分類,作為歸檔用戶提供服務(wù)的平臺的歸檔數(shù)據(jù)資源網(wǎng)絡(luò)[2-3]。

        1)用戶數(shù)據(jù)挖掘。用戶數(shù)據(jù)挖掘的準確洞察力、準確的服務(wù)、提高檔案用戶身份,實現(xiàn)檔案服務(wù)價值用戶數(shù)據(jù)挖掘包括以下幾個方面: 首先是對用戶信息的數(shù)據(jù)挖掘。要提取用戶的信息,必須查看用戶訪問服務(wù)器時留下的日志文件,跟蹤用戶行為,推測用戶的興趣,提供個性化的利用服務(wù)。其次挖掘用戶統(tǒng)計搜索和瀏覽記錄。例如,通過統(tǒng)計分析,用戶可以分析對文件目錄的點擊率,選擇點擊率高的文件進行數(shù)字化。分析用戶搜索時使用的文件搜索詞,補充和補充數(shù)據(jù)倉庫的搜索關(guān)鍵詞,提高準確性。通過統(tǒng)計分析,分析用戶訪問網(wǎng)頁的頻率,展開深入的信息服務(wù)。

        2)關(guān)系洞察及趨勢分析。存檔資源和用戶數(shù)據(jù)都是通過挖掘獲得的數(shù)據(jù)往往是孤立的數(shù)據(jù)點,因此,要使這些數(shù)據(jù)集成為完整的網(wǎng)絡(luò),必須對數(shù)據(jù)網(wǎng)絡(luò)背后的數(shù)據(jù)關(guān)系進行深入分析。例如,如果只挖掘文件收集情況,就只能得到檔案人員和文件之間的關(guān)系;如果挖掘文件利用,就只能得到文件和用戶之間的數(shù)據(jù)關(guān)系。但是,要準確地掌握文件之間、用戶之間、檔案和用戶之間的關(guān)系,必須整合這些孤立的數(shù)據(jù)點,確保整個檔案網(wǎng)絡(luò),才能預測文件開發(fā)、社會服務(wù)等 趨勢[4-5]。

        4 小結(jié)

        大數(shù)據(jù)時代、大存檔、大服務(wù)、智能存檔等已成為存檔工作的新發(fā)展,隨著存檔管理創(chuàng)新的深化,大數(shù)據(jù)技術(shù)將實際落實到文件管理的各個環(huán)節(jié),數(shù)據(jù)挖掘技術(shù)將更加熟練地用于文件管理。

        国产激情艳情在线看视频| AV无码系列一区二区三区| 久久精品中文字幕免费| 久久青青草原亚洲AV无码麻豆| 国产V亚洲V天堂A无码| 亚洲av极品尤物不卡在线观看| 少妇被啪出水在线视频| 狠狠综合久久av一区二区蜜桃| 人妻体体内射精一区二区| 亚洲综合无码一区二区| 无码AV大香线蕉伊人久久| 亚洲综合中文日韩字幕| 国产亚洲av无码av男人的天堂| 欧美一区二区三区久久综| 一个人看的www免费视频中文| 一二三四中文字幕日韩乱码| 一区二区三区四区黄色av网站 | 水蜜桃精品视频在线观看| 亚洲精品久久7777777| 亚洲 自拍 另类 欧美 综合| 国产片三级视频播放| 麻豆成年视频在线观看| 美女被内射中出在线观看| 久久99热只有频精品8国语| 中文字幕日韩三级片| 无码人妻精品一区二区三区在线| 3亚洲日韩在线精品区| 爱爱免费视频一区二区三区| 亚洲精品一区久久久久一品av| 欧美在线 | 亚洲| 久久99精品久久久66| 久久久噜噜噜噜久久熟女m| 免费观看国产短视频的方法| 羞羞视频在线观看| 日本不卡一区二区高清中文| 中文字幕亚洲永久精品| 色婷婷久久精品一区二区| 亚洲精品久久久久成人2007| 国产人碰人摸人爱视频| 久久色悠悠亚洲综合网| 国产日本精品一二三四区|