亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談數(shù)據(jù)挖掘技術(shù)在圖書(shū)館中的應(yīng)用

        2012-12-31 00:00:00賈輝
        經(jīng)濟(jì)研究導(dǎo)刊 2012年27期

        摘要:信息技術(shù)的飛速發(fā)展,改變我們的工作和生活。走進(jìn)生活,建立相關(guān)的信息系統(tǒng),在信息化的過(guò)程中,積累了大量的有用的信息數(shù)據(jù)。在這些浩瀚的數(shù)據(jù)之中存在的大量有價(jià)值的信息,提供給我們需要決策支持的企業(yè)和部門(mén)。如何充分利用這些數(shù)據(jù),處理和分析信息,是一個(gè)有待解決的問(wèn)題。如今信息化的迅速發(fā)展也給傳統(tǒng)意義上的圖書(shū)館帶來(lái)了革命性的發(fā)展。各個(gè)圖書(shū)館管理系統(tǒng)當(dāng)中不斷增加的海量數(shù)據(jù)也越來(lái)越被人們所重視,如何較好地利用這些資源,如何能夠挖掘出這大量數(shù)據(jù)下面有用的信息也成為時(shí)下最熱門(mén)的話(huà)題。

        關(guān)鍵詞:數(shù)據(jù)挖掘;圖書(shū)館;數(shù)字圖書(shū)館

        中圖分類(lèi)號(hào):G250 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-291X(2012)27-0241-03

        數(shù)據(jù)挖掘技術(shù)是信息世界發(fā)展所得的一種新興事務(wù),應(yīng)用領(lǐng)域越來(lái)越廣。從早期的商業(yè)應(yīng)用,發(fā)展到科學(xué)研究、金融行業(yè)、教育教學(xué)等多個(gè)領(lǐng)域。并且有了許多成功的應(yīng)用:在科學(xué)實(shí)驗(yàn)中,有專(zhuān)家應(yīng)用決策樹(shù)和基于規(guī)則的方法發(fā)現(xiàn)了新的類(lèi)星體;在零售行業(yè),貨籃分析幫助商店確定貨架布局以促進(jìn)銷(xiāo)售;在金融領(lǐng)域,孤立點(diǎn)的發(fā)現(xiàn)用以預(yù)測(cè)和預(yù)防可疑信用卡交易、惡意透支等;在銷(xiāo)售行業(yè),用來(lái)提高銷(xiāo)售的成功率;在制造業(yè),用來(lái)控制產(chǎn)品生產(chǎn),降低次品率。

        一、數(shù)據(jù)挖掘的定義

        數(shù)據(jù)挖掘技術(shù)是一門(mén)交叉學(xué)科,涉及數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、人工智能和機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域?!皵?shù)據(jù)挖掘”概念最早是由Usama Fayaad 1995年提出的。因?yàn)閿?shù)據(jù)挖掘技術(shù)所涉及的領(lǐng)域比較廣,所以現(xiàn)在還不能有一個(gè)能包括所有領(lǐng)域的全面的定義。但是比較完整的定義要算是從技術(shù)方面給其定義的。數(shù)據(jù)挖掘的技術(shù)定義是這樣描述的:數(shù)據(jù)挖掘(Data Mining)又稱(chēng)數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過(guò)程,簡(jiǎn)單地說(shuō),數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。

        這里要說(shuō)明的是,數(shù)據(jù)挖掘的目的并不僅僅是在數(shù)據(jù)庫(kù)中查找記錄。它跟信息檢索的任務(wù)是有區(qū)別的。數(shù)據(jù)挖掘和信息檢索的相同點(diǎn)是從數(shù)據(jù)抽取數(shù)據(jù)和信息。不同之處在于數(shù)據(jù)挖掘?qū)ふ椰F(xiàn)象之間事先未知的關(guān)系和關(guān)聯(lián)。也就是說(shuō)在數(shù)據(jù)挖掘任務(wù)進(jìn)行之前我們是沒(méi)法兒預(yù)測(cè)結(jié)果的。信息檢索是帶有一定目的、用戶(hù)預(yù)先可以感知至少是可以在腦海中想象一個(gè)抽象的結(jié)果的而檢索的結(jié)果也不會(huì)與用戶(hù)事先想象的結(jié)果有很大差別。信息檢索是需要用戶(hù)明確地提出查詢(xún)要求。通俗地來(lái)講是信息檢索的目的是幫助用戶(hù)從大量的文件中查找到其想要的文檔而數(shù)據(jù)挖掘是為了揭示文件中所隱藏的知識(shí)。這兩個(gè)是相輔相成的。我們可以使用數(shù)據(jù)挖掘研究出來(lái)的結(jié)果來(lái)提高信息檢索的精確度提高檢索結(jié)果的“親近性”,從而使信息檢索系統(tǒng)有更高的境界。

        二、數(shù)據(jù)挖掘中的幾種重要算法

        (一)關(guān)聯(lián)規(guī)則算法

        關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘是幫助發(fā)現(xiàn)大量數(shù)據(jù)庫(kù)中項(xiàng)集之間的關(guān)聯(lián)關(guān)系。目前這項(xiàng)技術(shù)已成為數(shù)據(jù)挖掘中最成熟、最重要、最活躍的研究?jī)?nèi)容。這種算法已發(fā)展到如教育、科研、醫(yī)學(xué)等各大領(lǐng)域。

        1.關(guān)聯(lián)規(guī)則算法的定義

        設(shè)I={i1,i2…,im}為所有項(xiàng)目的集合,設(shè)A是一個(gè)由項(xiàng)目構(gòu)成的集合,稱(chēng)為項(xiàng)集。事務(wù)T是一個(gè)項(xiàng)目子集,每一個(gè)事務(wù)具有唯一的事務(wù)標(biāo)識(shí)Tid。事務(wù)T包含項(xiàng)集A,當(dāng)且僅當(dāng)AT。如果項(xiàng)集A中包含k個(gè)項(xiàng)目,則稱(chēng)其為k項(xiàng)集。D為事務(wù)數(shù)據(jù)庫(kù),項(xiàng)集A在事務(wù)數(shù)據(jù)庫(kù)D中出現(xiàn)的次數(shù)占D中總事務(wù)的百分比叫做項(xiàng)集的支持度。如果項(xiàng)集的支持度超過(guò)用戶(hù)給定的最小支持度閾值,就稱(chēng)該項(xiàng)集是頻繁項(xiàng)集。

        關(guān)聯(lián)規(guī)則就是形如XY的邏輯蘊(yùn)涵關(guān)系,其中XI,YI且XY=Φ,X稱(chēng)作規(guī)則的前件,Y是結(jié)果,對(duì)于關(guān)聯(lián)規(guī)則XY,存在支持度和信任度。

        支持度是指規(guī)則中所出現(xiàn)模式的頻率,如果事務(wù)數(shù)據(jù)庫(kù)有s%的事務(wù)包含XY,則稱(chēng)關(guān)聯(lián)規(guī)則XY在D中的支持度為s%,實(shí)際上,可以表示為概率P(XY),即support(XY)=

        P(XY)。信任度是指蘊(yùn)涵的強(qiáng)度,即事務(wù)D中c%的包含X的交易同時(shí)包含XY。若X的支持度是support(x),規(guī)則的信任度為即為:support(XY)/support(X),這是一個(gè)條件概率

        P(Y|X),即confidence(XY)= P(Y|X)。

        2.關(guān)聯(lián)規(guī)則分類(lèi)

        關(guān)聯(lián)規(guī)則有很多的分類(lèi)方法,基于規(guī)則中處理的變量的類(lèi)別,可以分為布爾型和數(shù)值型關(guān)聯(lián)規(guī)則。基于規(guī)則中抽象層次,可以分為單層和多層關(guān)聯(lián)規(guī)則。基于規(guī)則中涉及的數(shù)據(jù)維數(shù),可以分為單維和多維關(guān)聯(lián)規(guī)則。還有時(shí)態(tài)、加權(quán)、多支持度、負(fù)關(guān)聯(lián)和混合關(guān)聯(lián)規(guī)則等。

        在圖書(shū)館數(shù)據(jù)挖掘應(yīng)用中,可以使用關(guān)聯(lián)規(guī)則算法對(duì)圖書(shū)館中讀者借閱數(shù)據(jù)進(jìn)行挖掘,挖掘出具有置信度和支持度的關(guān)聯(lián)規(guī)則從而快速挖掘出讀者借閱數(shù)據(jù)中的關(guān)聯(lián)關(guān)系,最終可以達(dá)到發(fā)現(xiàn)學(xué)科間的隱性關(guān)聯(lián)這樣一個(gè)目的。

        (二)遺傳算法

        遺傳算法是模擬達(dá)爾文的遺傳選擇和自然淘汰的生物進(jìn)化過(guò)程的計(jì)算模型。當(dāng)前,遺傳算法已表現(xiàn)出良好的應(yīng)用前景,遺傳算法的兩個(gè)主要特點(diǎn)是群體搜索策略和群體中個(gè)體之間的信息交換,它實(shí)際上是模擬由個(gè)體組成群體的整體學(xué)習(xí)過(guò)程,其中每個(gè)個(gè)體都是給定問(wèn)題搜索空間的一個(gè)解點(diǎn)。

        1.遺傳算法的定義

        遺傳算法是從代表問(wèn)題可能潛在的解集的一個(gè)種群開(kāi)始的,而一個(gè)種群則由經(jīng)過(guò)基因編碼的一定數(shù)目的個(gè)體組成。每個(gè)個(gè)體實(shí)際上是染色體帶有特征的實(shí)體。染色體作為遺傳物質(zhì)的主要載體,即多個(gè)基因的集合,其內(nèi)部表現(xiàn)是某種基因組合,它決定了個(gè)體的形狀的外部表現(xiàn),如黑頭發(fā)的特征是由染色體中控制這一特征的某種基因組合決定的。因此,在一開(kāi)始需要實(shí)現(xiàn)從表現(xiàn)型到基因型的映射即編碼工作。由于仿照基因編碼的工作很復(fù)雜,我們往往進(jìn)行簡(jiǎn)化,如二進(jìn)制編碼,初代種群產(chǎn)生之后,按照適者生存和優(yōu)勝劣汰的原理,逐代演化產(chǎn)生出越來(lái)越好的近似解,在每一代,根據(jù)問(wèn)題域中個(gè)體的適應(yīng)度大小選擇個(gè)體,并借助于自然遺傳學(xué)的遺傳算子進(jìn)行組合交叉和變異,產(chǎn)生出代表新的解集的種群。這個(gè)過(guò)程將導(dǎo)致種群像自然進(jìn)化一樣的后生代種群比前代更加適應(yīng)于環(huán)境,末代種群中的最優(yōu)個(gè)體經(jīng)過(guò)解碼,可以作為問(wèn)題近似最優(yōu)解。

        2.遺傳算法的特點(diǎn)

        遺傳算法是解決搜索問(wèn)題的一種通用算法,對(duì)于各種通用問(wèn)題都可以使用。搜索算法的共同特征為:(1)首先組成一組候選解;(2)依據(jù)某些適應(yīng)性條件測(cè)算這些候選解的適應(yīng)度;(3)根據(jù)適應(yīng)度保留某些候選解,放棄其他候選解;(4)對(duì)保留的候選解進(jìn)行某些操作,生成新的候選解。

        在遺傳算法中,上述幾個(gè)特征以一種特殊的方式組合在一起:基于染色體群的并行搜索,帶有猜測(cè)性質(zhì)的選擇操作、交換操作和突變操作。

        3.遺傳算法的應(yīng)用

        由于遺傳算法的整體搜索策略和優(yōu)化搜索方法在計(jì)算時(shí)不依賴(lài)于梯度信息或其他輔助知識(shí),而只需要影響搜索方向的目標(biāo)函數(shù)和相應(yīng)的適應(yīng)度函數(shù),所以遺傳算法提供了一種求解復(fù)雜系統(tǒng)問(wèn)題的通用框架,它不依賴(lài)于問(wèn)題的具體領(lǐng)域,對(duì)問(wèn)題的種類(lèi)有很強(qiáng)的魯棒性,所以廣泛應(yīng)用于許多科學(xué)。

        (三)聚類(lèi)分析

        聚類(lèi)分析又稱(chēng)群分析,它是研究分類(lèi)問(wèn)題的一種統(tǒng)計(jì)分析方法。

        1.聚類(lèi)分析的定義

        所謂聚類(lèi)就是按照事物的某些屬性,把事物聚集成類(lèi),使類(lèi)間的相似性盡可能小,類(lèi)內(nèi)相似性盡可能大。聚類(lèi)是一個(gè)無(wú)監(jiān)督的學(xué)習(xí)過(guò)程,它與分類(lèi)的根本區(qū)別在于,分類(lèi)是需要事先知道所依據(jù)的數(shù)據(jù)特征,而聚類(lèi)是要找到這個(gè)數(shù)據(jù)特征。因此,在很多應(yīng)用中,聚類(lèi)分析作為一種數(shù)據(jù)預(yù)處理過(guò)程,是進(jìn)一步分析和處理數(shù)據(jù)的基礎(chǔ)。

        2.聚類(lèi)分析常用的算法

        (1)劃分方法;(2)層次方法;(3)基于密度的方法;(4)基于網(wǎng)格的方法;(5)基于模型的方法;(6)高維數(shù)據(jù)的聚類(lèi)法;(7)模糊聚類(lèi)法。

        對(duì)圖書(shū)館讀者借閱進(jìn)行聚類(lèi)算法挖掘,可以使圖書(shū)館對(duì)讀者借閱規(guī)律的分析和把握、館藏圖書(shū)質(zhì)量的判斷等方面有著極積的意義。

        三、圖書(shū)館應(yīng)用數(shù)據(jù)挖掘技術(shù)的可行性分析

        隨著各高校數(shù)字圖書(shū)館的逐漸成熟。圖書(shū)館用戶(hù)信息需求和形式變的更加的多樣化,用戶(hù)除了自身的專(zhuān)業(yè)理論知識(shí)的需求以外,還需要提高自己的文化素質(zhì)修養(yǎng)和文化欣賞的品位。這樣他們對(duì)文獻(xiàn)需求的類(lèi)型也越來(lái)越廣泛。因此,高校圖書(shū)館的個(gè)性化服務(wù)已成為一個(gè)新的發(fā)展趨勢(shì)。個(gè)性化的服務(wù)需求、用戶(hù)的利益已經(jīng)成為書(shū)籍以及其他信息資源與圖書(shū)館讀者之間的關(guān)聯(lián)。而這些信息庫(kù)通過(guò)日常業(yè)務(wù)數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)是可以得到的。如:讀者庫(kù)中的數(shù)據(jù)記錄,館藏圖書(shū)的借還信息等。此外,對(duì)圖書(shū)館圖書(shū)館藏進(jìn)行數(shù)據(jù)挖掘還可以為圖書(shū)館提供更加合理的館藏,把握用戶(hù)直接和間接需求并對(duì)其提供個(gè)性化的服務(wù)起到?jīng)Q策支持的作用。因此在高校圖書(shū)館中應(yīng)用數(shù)據(jù)挖掘是可行的。

        四、數(shù)據(jù)挖掘在圖書(shū)館中可以有哪些應(yīng)用

        1.對(duì)圖書(shū)館的用戶(hù)進(jìn)行數(shù)據(jù)挖掘

        從數(shù)字圖書(shū)館的大量訪(fǎng)問(wèn)信息中挖掘用戶(hù)的訪(fǎng)問(wèn)記錄中挖掘、預(yù)測(cè)讀者對(duì)圖書(shū)館中圖書(shū)資源的興趣趨向。采用關(guān)聯(lián)規(guī)則和聚類(lèi)方法發(fā)現(xiàn)不同的用戶(hù)群體,然后對(duì)這些不同的群體提供信息定制服務(wù),幫助讀者快速發(fā)現(xiàn)、合理應(yīng)用館藏資源。

        2.對(duì)圖書(shū)館藏書(shū)結(jié)構(gòu)和讀者借還信息庫(kù)進(jìn)行數(shù)據(jù)挖掘

        在讀者使用圖書(shū)館資源的過(guò)程中將會(huì)留下很多有很大用處的讀者自身的基本信息,如讀者所在學(xué)院、所學(xué)專(zhuān)業(yè)信息,借還書(shū)的歷史信息和其他有價(jià)值的信息,圖書(shū)館的工作者可以通過(guò)獲取到的這些讀者信息,利用分類(lèi)、聚類(lèi)等方法挖掘有價(jià)值的數(shù)據(jù),獲得這些信息可以提供個(gè)性化的信息服務(wù),即根據(jù)讀者的借閱興趣或借閱大的方向,積極為讀者提供他們可能感興趣的寶貴的館藏資源。通過(guò)數(shù)據(jù)挖掘結(jié)果的分析,尋找各學(xué)科領(lǐng)域的一些相關(guān)知識(shí),從而來(lái)優(yōu)化圖書(shū)館的館藏布局。

        3.對(duì)數(shù)字圖書(shū)館中的文獻(xiàn)流通情況進(jìn)行數(shù)據(jù)挖掘

        目前各大高校圖書(shū)館都開(kāi)設(shè)了數(shù)字圖書(shū)館,這種方法可以給讀者更精確的服務(wù)。紙質(zhì)圖書(shū)的借還信息工作人員只能跟蹤到書(shū),可以知道哪一本書(shū)被借出,借出的頻率有多高,但是并不能知道這本被借出的書(shū)籍是否真正被充分利用了,這本書(shū)的哪一部分內(nèi)容對(duì)讀者有很大的吸引力。這些問(wèn)題在數(shù)字圖書(shū)館中都可以解決,數(shù)字圖書(shū)館把整本的書(shū)給拆開(kāi)來(lái)。精確到每一篇內(nèi)容,每一個(gè)段落甚至可以追蹤每一句話(huà)。這樣在當(dāng)讀者在數(shù)字圖書(shū)館中留下的記錄中我們可以很輕松地看到該讀者曾看過(guò)哪一篇文章。可以查詢(xún)到某一篇文章的被引次數(shù),這有利于管理人員把握讀者的興趣取向,為開(kāi)展圖書(shū)館個(gè)性化服務(wù)提供有力的資料保障。同時(shí)管理者也可以根據(jù)館內(nèi)資源的補(bǔ)利用頻次指導(dǎo)從而開(kāi)發(fā)自建數(shù)據(jù)庫(kù),把挖掘出來(lái)的那一部分“對(duì)讀者很有用處”的文章信息通過(guò)分門(mén)別類(lèi)重新整合成不同的子庫(kù)。這樣讀者可以根據(jù)自己所需進(jìn)入不同的子庫(kù)當(dāng)中來(lái)挑選資料。比較起來(lái)在龐大的一個(gè)總庫(kù)里,在千萬(wàn)條信息當(dāng)中去篩選自己所需知識(shí)要快的多也更精確的多。

        五、數(shù)據(jù)挖掘技術(shù)面臨的挑戰(zhàn)和局限性

        雖然數(shù)據(jù)挖掘技術(shù)在圖書(shū)館中的應(yīng)用是可行的,從理論上也是行之有效的,但是目前這項(xiàng)新的技術(shù)在圖書(shū)館中的應(yīng)用還不完善,受到管理水平、硬件水平、自動(dòng)化程度等客觀(guān)條件的制約,真正開(kāi)發(fā)出一款適合圖書(shū)館應(yīng)用的數(shù)據(jù)挖掘軟件還并不多見(jiàn)。數(shù)據(jù)挖掘技術(shù)在圖書(shū)館中仍然有著廣闊的應(yīng)用前景,有待進(jìn)一步深入研究和探討。

        青青草免费在线手机视频| 久久婷婷成人综合色| chinese国产乱在线观看| 娇妻粗大高潮白浆| 一区二区三区中文字幕在线观看| 无码精品人妻一区二区三区漫画 | 亚洲综合无码无在线观看| 日韩二三区| 国产大全一区二区三区| 亚洲免费国产中文字幕久久久 | 成人免费网站视频www| 国产高清在线91福利| 蜜桃噜噜一区二区三区| 中国妇女做爰视频| 吸咬奶头狂揉60分钟视频| 国产精品久久这里只有精品| 乳乱中文字幕熟女熟妇| 日日躁夜夜躁狠狠躁| 久久久久亚洲av无码专区| 国产成人精品视频网站| 人妻一区二区三区在线看| 狠狠色噜噜狠狠狠777米奇小说| 国产精品久免费的黄网站| 日韩人妻系列在线视频| 一区二区三区高清在线观看视频| 51国产黑色丝袜高跟鞋| 国产精品爽爽va在线观看网站| 中文字幕久久国产精品| 亚洲色偷偷综合亚洲avyp| 精品久久人人爽天天玩人人妻 | 一区二区免费中文字幕| 狠狠综合亚洲综合亚洲色| 99热久久精里都是精品6| 国色天香精品亚洲精品| 中文av字幕一区二区三区| 色欲色欲天天天www亚洲伊| 欧美一级在线全免费| 青青草视频在线观看视频免费| 亚洲a∨无码精品色午夜| 丰满五十六十老熟女hd| 一区二区三区婷婷中文字幕|