亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘技術(shù)在圖書館中的應(yīng)用研究

        2015-12-06 05:30:40金秋萍
        大學(xué)圖書情報學(xué)刊 2015年1期
        關(guān)鍵詞:數(shù)據(jù)挖掘圖書館信息

        金秋萍

        (廣西財經(jīng)學(xué)院,南寧530003)

        1 引言

        數(shù)據(jù)挖掘(Data Mining),是指從海量數(shù)據(jù)中提取出能夠更好幫助決策的有用信息。該技術(shù)的發(fā)展為信息的及時、廣泛傳播創(chuàng)造了良好條件,并產(chǎn)生巨大的經(jīng)濟(jì)效益,越來越受到各行各業(yè)的廣泛關(guān)注和使用。[1]以安全為例,美國國家安全局(NSA)愛德華·斯諾登披露了NSA全方位收集電話和電子郵件記錄之事,引發(fā)了全球關(guān)于信息安全問題的思考。NSA之所以能從海量信息中挖掘出有用信息,除得益于陡然降落的計算機(jī)存儲和處理價格,還依賴于數(shù)據(jù)挖掘技術(shù)的使用。同樣,數(shù)據(jù)挖掘技術(shù)在商業(yè)、氣象學(xué)、石油勘探、天文學(xué)等領(lǐng)域發(fā)揮著越來越重要的作用。[2]

        本文通過文獻(xiàn)回顧,總結(jié)了幾種關(guān)于讀者閱讀需求偏好的分類方式。在此基礎(chǔ)上,作者利用數(shù)據(jù)挖掘技術(shù),以廣西某高校圖書館為例,根據(jù)C4.5決策樹算法,建立了讀者閱讀需求偏好決策樹,以便全方位、深層次地滿足讀者的多樣化需求,提升圖書館的辦事效率和整體服務(wù)質(zhì)量。

        2 讀者閱讀需求偏好的分類及其相關(guān)數(shù)據(jù)的預(yù)處理

        目前,國內(nèi)許多學(xué)者對讀者閱讀需求偏好的分類進(jìn)行了大量研究??偟膩碇v,有以下幾種分類標(biāo)準(zhǔn):徐菊(2011)按讀者閱讀動機(jī)劃分,將讀者閱讀偏好由低到高劃分為四個層次,即生存型、消遣型、發(fā)展型和研究型;國金榮(2009)按照讀者閱讀興趣、閱讀需要和閱讀能力的不同,將讀者的閱讀類型大致分為四種:專業(yè)型、興趣休閑型、純粹消遣娛樂型(或時尚型)、隨便翻閱型;姚毓武、董克禮(1988)研究了天津體育學(xué)院學(xué)生的閱讀類型,他們根據(jù)不同年級需求層次,將讀者的閱讀需求分為豐富知識閱讀型、興趣或消遣閱讀型、為作業(yè)或考試閱讀型、經(jīng)常性閱讀型四類。根據(jù)國內(nèi)學(xué)者的研究成果,結(jié)合圖書館數(shù)據(jù)挖掘的實際情況,本文主要將讀者的閱讀需求偏好分為兩類:社會消遣型(S)和專業(yè)研究型(P)。

        現(xiàn)實世界中的數(shù)據(jù)多種多樣,每一種數(shù)據(jù)都不可能是完美無缺的,單純地利用數(shù)據(jù)挖掘技術(shù),其耗時長而且數(shù)據(jù)挖掘結(jié)果往往不盡如人意。為保證數(shù)據(jù)的質(zhì)量,可以在數(shù)據(jù)挖掘前使用數(shù)據(jù)預(yù)處理技術(shù),常用的數(shù)據(jù)預(yù)處理方法主要有:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換等。

        2.1 數(shù)據(jù)預(yù)處理和數(shù)據(jù)準(zhǔn)備

        2.1.1 數(shù)據(jù)的收集、整理及合并

        本文以廣西某高校圖書館為例,使用的數(shù)據(jù)均來自于該圖書館的集成管理系統(tǒng)??v覽數(shù)據(jù)庫的整體內(nèi)容,發(fā)現(xiàn)與讀者需求偏好有關(guān)的可供進(jìn)一步挖掘、分析的數(shù)據(jù)分布于流通數(shù)據(jù)庫的不同表中。流通數(shù)據(jù)庫主要包括讀者信息表(DZXXB)、流通信息表(LTXXB)、流通歷史表(LTLSB)、文獻(xiàn)信息表(WXXXB)、條碼信息表(TMXXB)等,這些表中都不同程度地包含了有關(guān)讀者的基本信息、讀者借閱信息以及讀者借閱書籍的書籍信息。接下來,具體看以下各表所包含的主要字段信息。表1列出了有關(guān)讀者基本信息的主要字段。

        表1 讀者信息表中的主要字段

        流通信息表顯示了讀者的借閱歷史,表明讀者曾經(jīng)借過哪些書,在什么時間段借閱過而且顯示了已借閱圖書的館藏狀態(tài)等信息。如表2為流通信息表中的主要字段。

        文獻(xiàn)信息表和條碼信息表通過共同的關(guān)鍵字——控制號聯(lián)系在一起,分別顯示了讀者要檢索的文獻(xiàn)信息以及文獻(xiàn)對應(yīng)的條碼信息。查找文獻(xiàn)資料時,可以通過條碼信息找到對應(yīng)的控制號,然后再找到該控制號對應(yīng)的文獻(xiàn)資料。

        表2 流通信息表中的主要字段

        通過以上讀者信息表、借閱信息表、文獻(xiàn)信息表和條碼信息表的介紹,可以建立圖書館讀者數(shù)據(jù)寬表。具體步驟如下:首先必須建立數(shù)據(jù)源(ODBC),這是建立圖書館讀者數(shù)據(jù)寬表的前提和基礎(chǔ);然后,使用MS QUERY將該數(shù)據(jù)源和流通數(shù)據(jù)庫相連接,同時添加讀者信息表和流通信息表;依此類推,根據(jù)這幾個表之間的聯(lián)系,添加條碼信息表、流通歷史表、文獻(xiàn)信息表,最終就可以得到圖書館讀者數(shù)據(jù)寬表。

        2.1.2 類標(biāo)簽的界定

        類標(biāo)簽是用來標(biāo)志目標(biāo)的分類或內(nèi)容,以便于日后查找和定位,這里的目標(biāo)即讀者的閱讀需求偏好,剛剛建立的數(shù)據(jù)寬表中并不存在這樣一種標(biāo)簽,這就需要重新定義類標(biāo)簽。根據(jù)國內(nèi)學(xué)者對讀者閱讀需求偏好的研究,本文主要將讀者閱讀需求偏好分為兩類,即社會消遣型和專業(yè)研究型,分別記為S和P。

        2.2 數(shù)據(jù)清理

        數(shù)據(jù)清理主要解決數(shù)據(jù)文件建立中的人為誤差,以及數(shù)據(jù)文件中一些對統(tǒng)計分析結(jié)果影響較大的特殊數(shù)值。常用的數(shù)據(jù)清理方法包括可編碼式清理和聯(lián)列式清理。數(shù)據(jù)清理例程通過填寫缺失的值、光滑噪聲數(shù)據(jù)、識別或刪除離群點(diǎn)并解決不一致性來“清理”數(shù)據(jù)。

        2.3 變量的變換及合成

        數(shù)據(jù)變換是指將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖掘的形式,主要是對數(shù)據(jù)進(jìn)行規(guī)格化操作。為了理清現(xiàn)有變量與類標(biāo)簽之間的關(guān)系,常常要用到數(shù)據(jù)變換這樣一種方法。[3]就本文所選取的讀者閱讀需求偏好來說,可供讀者閱讀的書籍成千上萬,而這些書籍書名各異,可以根據(jù)圖書所屬地域歸類為中國文學(xué)或外國文學(xué)。在此基礎(chǔ)上,可以進(jìn)一步作概念層次提升,即將它們提升為我們要研究的娛樂消遣和專業(yè)研究兩大類。具體如圖1所示:

        在數(shù)據(jù)挖掘技術(shù)中,單純依靠數(shù)據(jù)清理和數(shù)據(jù)集成,很難挖掘出數(shù)據(jù)之間的深層次關(guān)系,所以需要對數(shù)據(jù)進(jìn)行變換和合成,找出數(shù)據(jù)之間隱藏的某種聯(lián)系。表3顯示了數(shù)據(jù)合成過程及其結(jié)果。

        圖1 概念層次提升

        表3 原始寬表數(shù)據(jù)節(jié)選(0表示在借,1表示已還)

        根據(jù)表3中原始寬表數(shù)據(jù)節(jié)選的字段,在電子表格中,可以合成如下幾個變量:最近借閱圖書類別、借閱類別數(shù)、借閱時間最長圖書類別、借閱頻率、閱讀偏好等,如表4列出了原始寬表聚焦后的數(shù)據(jù)表。

        表4 原始寬表聚焦后的數(shù)據(jù)表

        其中,借閱次數(shù)表示某一時期內(nèi),讀者借閱某一本圖書(包括在借圖書)的次數(shù);借閱類別數(shù)表示某一時期內(nèi),讀者分別借閱專業(yè)研究類書籍和娛樂消遣類書籍的次數(shù);借閱時間最長圖書類別表示讀者自借出該圖書到實際還書日期差值最大的圖書所對應(yīng)的圖書類別。如果借閱次數(shù)的值呈離散分布,為便于統(tǒng)計分析,可以對這些數(shù)據(jù)進(jìn)行處理,即進(jìn)行等頻分箱,箱的密度可以設(shè)為3,分別表示借閱次數(shù)的高、中、低三個等級。

        2.4 變量選擇

        數(shù)據(jù)庫中存在著大量的數(shù)據(jù),并不是所有數(shù)據(jù)都可以作為數(shù)據(jù)挖掘的對象,否則會影響數(shù)據(jù)挖掘的質(zhì)量。根據(jù)“奧卡姆剃刀”定律,目標(biāo)越簡單,越能將焦點(diǎn)集中于要解決的復(fù)雜問題上。[4]在這里,我們保留一些最能體現(xiàn)讀者借閱信息的變量,剔除相關(guān)性較小的變量,得到讀者信息的最終數(shù)據(jù)表,如下表5:

        表5 最終數(shù)據(jù)表字段節(jié)選

        表中P和S在上文中已定義,P表示專業(yè)研究讀者的閱讀需求偏好,S表示社會消遣型讀者的閱讀需求偏好。為保證數(shù)據(jù)挖掘的質(zhì)量,應(yīng)剔除一些數(shù)據(jù)量很小、可能會影響數(shù)據(jù)挖掘質(zhì)量的變量,例如:借閱類別中包含的西文圖書、綜合圖書等變量。通過以上數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和合成,得到16540條適于進(jìn)行數(shù)據(jù)挖掘的條目。

        3 構(gòu)建讀者閱讀需求偏好決策樹

        3.1 C4.5 算法簡介

        C4.5算法最初是由Quinlan基于ID3算法提出,嚴(yán)格上說C4.5只能是 ID3的一個改進(jìn)算法。C4.5算法繼承了ID3算法的優(yōu)點(diǎn),并在以下幾方面對ID3算法進(jìn)行了改進(jìn):用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;在樹構(gòu)造過程中進(jìn)行剪枝;能夠完成對連續(xù)屬性的離散化處理;能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。因此,通過C4.5算法產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率和效率也更高。[5]

        (2)類別條件熵 infov(T)=-∑jp(vi)∑ip(Cj|vi)log p(Cj|vi)

        (3)信息增益,即互信息 gain(V)=info(T)-info(T)

        (4)屬性V的信息熵 split-info(V)=-∑ip(vi)log(p(vi))

        (5)信息增益率 gain-ratio=gain(V)/splitinfo(V)

        3.2 構(gòu)造樹

        為建立讀者需求偏好決策樹,必須借助最終數(shù)據(jù)表中的變量來構(gòu)造。根據(jù)C4.5算法,應(yīng)該選擇能夠帶來最大信息增益率的分類方式,即借助最近借閱圖書類別、借閱類別數(shù)、借閱時間最長類別、借閱頻率四種分類方式來運(yùn)算。[6]在電子表格中,利用VBA函數(shù)Gain()、Split-info()和Gain()-ratio(),計算信息增益、固有信息值和信息增益率。具體計算過程如下:

        Gain(最近借閱圖書類別)

        =info(10525,5144)-info([8936,1264],[1589,3880])=0.91317-0.65532=0.25785

        Split-info(最近借閱圖書類別)

        =info([10200,5469])=0.93320

        Gain-ratio(最近借閱圖書類別)=0.2763

        Gain(借閱類別數(shù))

        =info(10525,5144)-info([4741,1396],[5784,3748])=0.91317-0.89114=0.02203

        Split-info(借閱類別數(shù))

        =info([6137,9532])=0.96587

        Gain-ratio(借閱類別數(shù))=0.02281

        Gain(借閱時間最長類別)

        =info(10525,5144)-info([9331,1417],[1194,3727])

        =0.91317-0.63687=0.2763

        Split-info(借閱時間最長類別)=info([10748,4921])=0.8978

        Gain-ratio(借閱時間最長類別)=0.30775

        Gain(借閱頻率)

        =info(10525,5144)-info([3353,1711 ],[2893,1393],[4279,2040])=0.91317-0.91303=0.00014

        Split-info(借閱頻率)

        =info([5064,4266,6319])=1.56657

        Gain-ratio(借閱頻率數(shù))=0.000093

        分別計算決策樹上每個分支的信息增益率,對比計算出來的各個信息增益率值,選擇其中數(shù)值最大的作為劃分屬性的依據(jù)。根據(jù)以上計算過程,可以發(fā)現(xiàn)“借閱時間最長類別”所對應(yīng)的信息增益率的值最大,因此,可以該屬性作為根節(jié)點(diǎn)的劃分屬性。按照C4.5算法循環(huán)以上計算過程,最終可得到讀者閱讀需求偏好決策樹,如圖2所示。

        圖2 讀者閱讀需求偏好決策樹

        3.3 評價規(guī)則的生成以及評價分析

        為了保證評價結(jié)果的公正和客觀,以便更好地檢驗和反饋圖2中生成的讀者閱讀需求偏好決策樹,利用IF THEN形式生成關(guān)于讀者閱讀需求偏好的評價規(guī)則:

        IF(借閱時間最長類別=專業(yè)研究類)THEN(類別=P)

        IF(借閱時間最長類別=娛樂消遣類 AND借閱類別數(shù)=1)THEN(類別=S)

        IF(借閱時間最長類別=娛樂消遣類 AND借閱類別數(shù)>1 AND最近借閱類別=娛樂消遣類)THEN(類別=S)

        IF(借閱時間最長類別=娛樂消遣類 AND借閱類別數(shù)>1 AND最近借閱類別=專業(yè)研究類AND借閱頻率<>低)THEN(類別=P)

        IF(借閱時間最長類別=娛樂消遣類 AND借閱類別數(shù)>1AND最近借閱類別=專業(yè)研究類AND借閱頻率=低)THEN(類別=S)共生成5條規(guī)則,準(zhǔn)確率為83%,可以接受。

        對評價規(guī)則作進(jìn)一步的評價分析,可得出結(jié)論:

        (1)閱讀需求偏好專業(yè)研究型的讀者,其借閱專業(yè)書籍的時間最長,同時借閱書籍的種類繁多。因此,可以認(rèn)為這種類型的讀者興趣愛好廣泛,但主要還是集中于專業(yè)書籍方面。

        (2)閱讀需求偏好社會消遣型的讀者,其借閱文藝書籍的時間最長,同時借閱書籍的種類比較少,表明讀者的興趣也比較單一;與此相對應(yīng)的另一種情況是:讀者借閱文藝書籍的時間最長,借閱書籍種類多種多樣。同樣可以認(rèn)為這種類型的讀者興趣愛好廣泛,借閱時以專業(yè)書籍為主,但是這種類型的讀者借閱頻率低,表明該種類型的讀者對圖書館圖書的利用率比較低。

        4 結(jié)語

        隨著現(xiàn)代科學(xué)技術(shù)的發(fā)展,圖書館數(shù)據(jù)的集成和管理必須借助數(shù)據(jù)挖掘技術(shù),才能保證數(shù)據(jù)的可靠、及時和安全。本文在研究圖書館讀者閱讀需求偏好的基礎(chǔ)上,根據(jù)讀者的閱讀需求偏好建立決策樹,旨在為讀者提供多樣化、深層次的服務(wù),提高服務(wù)的質(zhì)量和水平。需要注意的是,本文所采用的閱讀需求偏好模型只是讀者數(shù)據(jù)挖掘中的一個方面,如果要全方位地挖掘讀者閱讀需求偏好,必須結(jié)合多種方法和技術(shù),全面、深入地采集和分析與讀者閱讀需求偏好有關(guān)的信息。

        [1]M.goebel and L.Gruenwald,A survey of data mining and knowledge discovery software tools[J].SIKDD Explorations,2009,1(1).22-23.

        [2]牛根義.國內(nèi)圖書館數(shù)據(jù)挖掘研究[J].現(xiàn)代情報,2010,29(1).128-133.

        [3]胡可云,田鳳占等.數(shù)據(jù)挖掘理論與應(yīng)用[M].北京:北京交通大學(xué)出版社,2008.165-210.

        [4]蔣艷凰.機(jī)器學(xué)習(xí)方法[M].北京:電子工業(yè)出版社,2011.7-8.

        [5]J.Quinlan.C4.5 Programs for Machine Learning[M].Morgan Kaufmann Publishers,2008.

        [6]姚家奕.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)原理及應(yīng)用[M].北京:電子工業(yè)出版社,2009.200-219.

        猜你喜歡
        數(shù)據(jù)挖掘圖書館信息
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        圖書館
        小太陽畫報(2018年1期)2018-05-14 17:19:25
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        飛躍圖書館
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        去圖書館
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        国产精品18久久久久久首页| 亚洲色欲色欲大片www无码| 中出内射颜射骚妇| 国产精品久久久久孕妇| 久久夜色精品国产三级| 一边摸一边做爽的视频17国产| 激情综合色综合啪啪五月丁香| 亚洲视频天堂| 白色橄榄树在线阅读免费| 91精品国产综合久久熟女| 亚洲熟女一区二区三区| 在线观看视频一区| 国产青春草在线观看视频| 少妇精品亚洲一区二区成人| 久久aⅴ人妻少妇嫩草影院| 国内久久婷婷精品人双人| 蜜桃视频成年人在线观看| 久久久99精品成人片| 99久久精品费精品国产一区二区 | 久久99热国产精品综合| 亚洲精品午夜无码电影网| 91精品全国免费观看青青| 亚洲一区二区三区免费av| 国产69精品久久久久9999apgf| 青草国产精品久久久久久| 九九精品国产99精品| 久久亚洲中文字幕伊人久久大| 无码精品人妻一区二区三区av| 99热精品成人免费观看| 亚洲全国最大的人成网站| 中文字幕无码成人片| 婷婷丁香五月中文字幕| 一区二区三无码| 国产成人亚洲一区二区| 亚洲日本一区二区一本一道| 精品亚洲午夜久久久久| 亚洲中文字幕在线第六区| 色综合av综合无码综合网站 | 人妻少妇精品一区二区三区| 日韩中文字幕在线观看一区| 亚洲美腿丝袜 欧美另类|