亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘下的高校圖書館信息資源管理分析

        2020-09-03 11:52:24
        科技視界 2020年25期
        關(guān)鍵詞:日志數(shù)據(jù)挖掘預(yù)處理

        沈 惠

        0 引言

        現(xiàn)如今,高校數(shù)字圖書館信息資源日漸增長,計算機技術(shù)被投用到日常管理工作實踐中,數(shù)據(jù)量也呈幾何倍數(shù)增長,在處理數(shù)據(jù)時暴露出針對性不強、檢索精確度偏低、資源利用率低、存有大量冗余信息、數(shù)據(jù)庫信息訪問不便利等問題。和Web 數(shù)據(jù)相比較,傳統(tǒng)數(shù)據(jù)庫內(nèi)的數(shù)據(jù)結(jié)構(gòu)性更強,而Web 上儲留的數(shù)據(jù)盡管具有一定結(jié)構(gòu)性,但屬于半結(jié)構(gòu)化數(shù)據(jù)。結(jié)合處理對象的不同,Web 挖掘有內(nèi)容、結(jié)構(gòu)及使用記錄挖掘三種類型,其中使用挖掘又被稱之為日志挖掘,為Web 挖掘?qū)嵺`中的重點對象,其通過解讀日志記錄內(nèi)容的規(guī)律,提供樣式多樣的統(tǒng)計報告,強化Intemet 信息服務(wù)品質(zhì),優(yōu)化服務(wù)器屬性與結(jié)構(gòu)。

        1 數(shù)據(jù)挖掘的概念分析

        數(shù)據(jù)挖掘?qū)儆谝粋€跨學(xué)科的邊緣性技術(shù),主要囊括計算機技術(shù)、信息技術(shù)、統(tǒng)計學(xué)、數(shù)據(jù)可視化等。

        數(shù)據(jù)挖掘又被叫作數(shù)據(jù)庫內(nèi)的知識發(fā)現(xiàn)(KDD),被定義成從數(shù)據(jù)庫內(nèi)探尋到隱匿信息,部分情況下也被叫作探索性數(shù)據(jù)分析、歸納學(xué)習(xí)等,等同于分析數(shù)據(jù)庫內(nèi)大批量的、不完整性的、存有噪聲的、模糊性、隨機分配的現(xiàn)實應(yīng)用數(shù)據(jù),其宗旨在于探索不同數(shù)據(jù)之間隱含的相關(guān)性、運作模式,以新的技術(shù)方法為支撐,重新整合事前未知的、存有實際應(yīng)用價值的數(shù)據(jù)轉(zhuǎn)型化為實用信息與知識[1]。

        數(shù)據(jù)挖掘過程中不僅會協(xié)助相關(guān)人員更深度地學(xué)習(xí)現(xiàn)有知識,還能使用探查到的模式做出合理預(yù)測,進(jìn)而捕獲易于理解且運用過程便利的知識。數(shù)據(jù)挖掘用于圖書館信息資源管理實踐中,能為廣大讀者提供個性化信息服務(wù),優(yōu)化服務(wù)質(zhì)量;整合多種數(shù)據(jù)資源,拓展信息資源的豐富度,提升資源利用率與檢索的準(zhǔn)確度;為圖書館工作人員創(chuàng)造一個更有效的平臺,進(jìn)而優(yōu)化信息服務(wù)工作質(zhì)效。

        2 SAS 數(shù)據(jù)挖掘的主要流程

        從宏觀層面上,可以把數(shù)據(jù)挖掘細(xì)化為獲取數(shù)據(jù)源、數(shù)據(jù)預(yù)處理、建設(shè)與訓(xùn)練模型、評估模式幾過程。SEMMA 為SAS 工具內(nèi)的挖掘過程,具體如下[2]:

        (1)SamPle—數(shù)據(jù)采樣:在挖掘數(shù)據(jù)時,要由大批量數(shù)據(jù)內(nèi)擇選出典型的、真實度高、完整的、有效的且與要研究問題存在相關(guān)性的數(shù)據(jù)子集。

        (2)ExPfore 一數(shù)據(jù)分析與預(yù)處理:規(guī)劃采樣數(shù)據(jù)集類別并作出篩選,解讀不同因素間的相關(guān)性。數(shù)據(jù)規(guī)律與趨向等,可采用曲線、圖表等呈現(xiàn)出來。

        (3)Modify 一數(shù)據(jù)調(diào)整與技術(shù)選用:經(jīng)探索過程對數(shù)據(jù)有籠統(tǒng)性認(rèn)識后,需對數(shù)據(jù)做出刪減、選擇、轉(zhuǎn)型及數(shù)量化等處理,以確保數(shù)據(jù)挖掘過程有效推進(jìn)。

        (4)Model 一建模與發(fā)現(xiàn)知識:這是知識挖掘過程中的核心環(huán)節(jié),應(yīng)結(jié)合數(shù)據(jù)集自身特點及要達(dá)成的目標(biāo),選擇一種或數(shù)種挖掘手段,回歸分析、決策樹等是常用方法,在對比分析中選用最佳的模型,開展后續(xù)階段的預(yù)測工作。

        (5)Acces—整體解釋、評估模型與知識:綜合多方面因素,解釋歷經(jīng)以上處置過程獲得的結(jié)果和模型,并在某種方法協(xié)助下,評估決策支持信息的適用程度,進(jìn)而更為客觀的判讀數(shù)據(jù)挖掘結(jié)果的可靠性、有效性。

        3 基于SAS 的Web 使用日志數(shù)據(jù)挖掘?qū)嵺`

        3.1 日志數(shù)據(jù)挖掘過程

        以SAS 為基礎(chǔ)的Web 采用日志數(shù)據(jù)挖掘資源,等同于采用SAS 挖掘工具與SQL Server2000 挖掘Web 適用的日志數(shù)據(jù),實踐中要把Web 采用的日志數(shù)據(jù)整合至SQL Server2000內(nèi),轉(zhuǎn)換、預(yù)處理數(shù)據(jù)后形成事務(wù)表,而后利用SAS 挖掘工具對事務(wù)表內(nèi)數(shù)據(jù)進(jìn)行聚類、關(guān)聯(lián)等處理,進(jìn)而捕獲有關(guān)知識的過程??梢詫⒁陨线^程分為兩個部分與三階段。在兩個部分中,第一部分是數(shù)據(jù)預(yù)處理;第二部分是SAS 數(shù)據(jù)挖掘;數(shù)據(jù)采集與預(yù)處理、模式挖掘、分析挖掘結(jié)果構(gòu)成三階段。

        在數(shù)據(jù)預(yù)處理階段中,先要以文本文件形式由Web 服務(wù)器內(nèi)導(dǎo)出Web 日志數(shù)據(jù),而后再將其導(dǎo)進(jìn)SQLServer2000,使用SQLServer2000 的DTS 器具對的文本文件行數(shù)據(jù)轉(zhuǎn)換與清洗處理。針對那些清洗效果達(dá)標(biāo)的Web 日志文件,要依照網(wǎng)站具體內(nèi)容或者結(jié)構(gòu)完成用戶、會話辨識的系列性工作。預(yù)處理過程中,Web 日志數(shù)據(jù)資源被梳理、分割為單組用戶事務(wù)集,其作用是能清晰地呈現(xiàn)出各個用戶對站點的不同訪問行為。而在模式挖掘(SAS)階段,有選擇地使用SAS 持有的數(shù)據(jù)挖掘手段進(jìn)而呈現(xiàn)出用戶特別的隱匿形式、簡單統(tǒng)計Web 資源與用戶群體。在該過程的后期,要系統(tǒng)解析、總結(jié)、梳理被挖掘出的模式與信息,形成與挖掘目的相匹配的知識與規(guī)律[3]。

        3.2 數(shù)據(jù)預(yù)處理的關(guān)鍵技術(shù)

        3.2.1 數(shù)據(jù)清洗

        又被稱之為數(shù)據(jù)凈化,即提出Web 服務(wù)器日志內(nèi)和挖掘算法無相關(guān)性的數(shù)據(jù)。多數(shù)情況下,日志內(nèi)僅有HTML 文件和用戶會話有關(guān)??梢酝ㄟ^如下兩種辦法刪掉不相關(guān)數(shù)據(jù):一是檢索客戶瀏覽器類型,二是檢查HTML 的后綴,當(dāng)后綴名是GIF、JpEG、JpG 等圖形文件可被刪除。把初始Web 日志文件整合至sqlserver 2000 完成轉(zhuǎn)換,逐一掃描后剔除和挖掘算法無關(guān)數(shù)據(jù)。

        3.2.2 用戶辨識

        等同于關(guān)聯(lián)用戶于請求界面的過程,多用于處理數(shù)個用戶以代理服務(wù)器或防火墻為載體訪問網(wǎng)站的情況,辨識用戶有益于協(xié)助圖書館工作人員提供個性化服務(wù)[4]。

        3.2.3 會話辨識

        即在辨識用戶后,對各個用戶的全部點擊序列作出梳理規(guī)劃,其宗旨是把用戶當(dāng)下及既往訪問記錄規(guī)劃成單一會話模式。

        超時方法是辨識用戶會話的常用手段,其有兩種形式:一是設(shè)定用戶會話全過程的超時閾值,即符合time(l)- time(k)≤T(T 是事前設(shè)定好的超時閾值)條件時,便可確定是同個會話,要么為新的會話;二是設(shè)定兩個相毗鄰請求見的超時閾值,若測算出兩頁面請求事件差超出上限時,便認(rèn)定用戶進(jìn)行了一個新會話活動。在同個會話中頁面請求一定要符合time(i)- time(i- 1)≤T(1<i≤k)。

        3.2.4 事務(wù)辨識

        等同于對單次用戶會話作出語義分組,將其割斷為數(shù)個邏輯單元,進(jìn)而為訪問者創(chuàng)建有現(xiàn)實意義的數(shù)據(jù)集。全部用戶事務(wù)的結(jié)合可以采用m×n 的用戶界面訪問矩陣表示。

        3.3 Web 采用日志數(shù)據(jù)的預(yù)處理結(jié)果

        針對Web 采用日志數(shù)據(jù)完成轉(zhuǎn)換與預(yù)處理日志數(shù)據(jù)以后,就可把歷經(jīng)用戶辨識后的32 個用戶于2019- 3- 15~2019- 3-31 期間的數(shù)據(jù)轉(zhuǎn)變?yōu)橛脩羰聞?wù)表、數(shù)據(jù)資源表[5]。

        3.4 SAS 模式挖掘與結(jié)果分析

        針對數(shù)據(jù)預(yù)處理后形成的各種事務(wù)表,采用SAS 挖掘工具內(nèi)的用戶聚類進(jìn)行處理,過程為:

        把歷經(jīng)預(yù)處理流程后獲得的用戶事務(wù)表數(shù)據(jù)整合至SAS工具內(nèi),于Work 數(shù)據(jù)庫中創(chuàng)建YHjh 數(shù)據(jù)集。采用平均距離、最長距離法、離差平放于距離法完成聚類分析。針對不同方法形成的聚類過程結(jié)果表加以分析,各類方法的主要統(tǒng)計數(shù)量呈現(xiàn)聚類最適宜的類數(shù)目可歸納為表1。

        表1 聚類類數(shù)目表

        對表1 內(nèi)數(shù)據(jù)加以分析后,我們認(rèn)為聚類數(shù)目為2、3、4 類時較為適宜,但哪種是最適方法,細(xì)化為幾類更為科學(xué),還需考評依照各種方法勾畫的聚類樹。

        采用如上四種方法繪制出的聚類樹圖內(nèi),對比分析后認(rèn)定選用comPlete 法聚類取得的效果最優(yōu)良,聚類數(shù)據(jù)分布較勻稱,類間距顯著[6]。

        4 結(jié)束語

        采用comPlete 法把用戶群體細(xì)化為積極、一般與消極用戶是合理的,對于高校圖書館而言,依照用戶群體對數(shù)字資源的實際應(yīng)用情況進(jìn)行規(guī)劃是有很大現(xiàn)實意義的?;谟脩纛悇e規(guī)劃情況,可以結(jié)合各類別用戶對圖書館信息資源的需求,更合理的購置于管理資源;針對消極用戶可以進(jìn)行問詢與技術(shù)上的支持,整體提升圖書館資源的利用率,促進(jìn)高校圖書館事業(yè)長效、穩(wěn)定發(fā)展進(jìn)程。

        猜你喜歡
        日志數(shù)據(jù)挖掘預(yù)處理
        一名老黨員的工作日志
        華人時刊(2021年13期)2021-11-27 09:19:02
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        游學(xué)日志
        基于預(yù)處理MUSIC算法的分布式陣列DOA估計
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        淺談PLC在預(yù)處理生產(chǎn)線自動化改造中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        絡(luò)合萃取法預(yù)處理H酸廢水
        基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
        大岛优香中文av在线字幕| 大肉大捧一进一出好爽视频mba| 7777精品久久久大香线蕉| 大屁股少妇一区二区无码| 国产成人精品一区二三区在线观看 | 日本av一区二区三区四区| 久久综合99re88久久爱| 亚洲性啪啪无码av天堂| 精品视频在线观看免费无码| 99久久免费中文字幕精品| 日产精品高潮一区二区三区5月| 亚洲色欲色欲www在线观看| 97se亚洲国产综合自在线图片| 国产熟妇人妻精品一区二区动漫| 亚洲综合免费| 国产午夜激无码AV毛片不卡| 国产丝袜长腿在线看片网站| 亚洲人成网站色在线入口口| 中文字幕日韩一区二区不卡| 欧美理论在线| 日韩av一区二区三区在线观看| 97人妻精品一区二区三区男同| 亚洲av无码av制服另类专区| 欧美成人精品第一区二区三区| 久久精品午夜免费看| 国产美腿丝袜一区二区| 日日噜噜夜夜狠狠视频| 婷婷色中文字幕综合在线| 99久久久69精品一区二区三区| 亚洲av日韩专区在线观看| 丰满岳乱妇一区二区三区| 中文字幕熟妇人妻在线视频 | 欧美日韩一区二区三区视频在线观看| 亚洲av成人永久网站一区| 精品人妻av区乱码| 久久亚洲av永久无码精品| 日本女优中文字幕在线观看| 熟妇人妻无乱码中文字幕av | 日本不卡视频免费的| 久久精品亚洲乱码伦伦中文| 精品亚洲a∨无码一区二区三区|