亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        書目檢索功能個性化推薦關(guān)鍵技術(shù)的研究

        2016-12-12 07:34:14張亮
        微型電腦應(yīng)用 2016年11期
        關(guān)鍵詞:項(xiàng)集借書置信度

        張亮

        書目檢索功能個性化推薦關(guān)鍵技術(shù)的研究

        張亮

        高校圖書館是進(jìn)行學(xué)習(xí)和科研的重要環(huán)境,更是師生獲取參考資源的重要渠道。目前,部分高校的圖書書目檢索功能還停留在傳統(tǒng)的線性檢索和僅靠關(guān)鍵字檢索的層面上,隱藏在海量的借閱記錄背后的潛在關(guān)聯(lián)無法被發(fā)現(xiàn),對借書者的需求無法進(jìn)行預(yù)測。關(guān)聯(lián)規(guī)則是從大量數(shù)據(jù)中挖掘有價值的數(shù)據(jù)之間的相關(guān)關(guān)系。擬用等價的關(guān)聯(lián)規(guī)則在書目檢索模塊實(shí)現(xiàn)圖書的個性化推薦,以便借書者在海量的圖書資料中找到自己感興趣的圖書信息。

        數(shù)據(jù)挖掘;個性化;關(guān)聯(lián)規(guī)則;書目檢索

        0 引言

        隨著網(wǎng)絡(luò)化和數(shù)字化圖書館技術(shù)發(fā)展,借閱圖書所產(chǎn)生的信息數(shù)據(jù)量越來越大,高校圖書館管理系統(tǒng)中存儲著大量的書目信息、借書者信息、檢索信息等數(shù)據(jù)。圖書書目檢索個性化推薦功能是圖書館管理系統(tǒng)中的重要模塊,它的很大程度上簡化了借書者檢索借閱等其他相關(guān)業(yè)務(wù)的復(fù)雜性。如何利用數(shù)據(jù)技術(shù)建立借書者與書目的關(guān)聯(lián),讓借書者在第一時間找到對自己有用的書目,實(shí)現(xiàn)書目的個性化推薦,是本文研究的內(nèi)容。本文提出了一種基于等價的關(guān)聯(lián)規(guī)則算法來實(shí)現(xiàn)書目檢索的個性化推薦,以此來更好的提高圖書館的服務(wù)水平。

        1 關(guān)聯(lián)規(guī)則挖掘理論及其算法

        1.1 關(guān)聯(lián)規(guī)則

        關(guān)聯(lián)規(guī)則[1,2](Association Rules)是數(shù)據(jù)之間依附關(guān)系的數(shù)據(jù)的自然描述,其主要是研究和發(fā)現(xiàn)實(shí)際應(yīng)用中數(shù)據(jù)屬性之間的關(guān)聯(lián)關(guān)系,對關(guān)聯(lián)規(guī)則進(jìn)行挖掘是數(shù)據(jù)挖掘中的一項(xiàng)根本性任務(wù)。關(guān)聯(lián)規(guī)則以數(shù)據(jù)源型數(shù)據(jù)庫為主要對象,是多個取值相同概率高的數(shù)據(jù)項(xiàng)之間按照某種規(guī)則建立的聯(lián)系。

        具有支持度support(X→Y),指D中包含X∪Y的概率s%,即式(1):

        具有置信度confidence(X→Y),指D中包含的X∪Y與包含的X比率c%,即式(2):

        同時滿足用戶給定的最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的關(guān)聯(lián)規(guī)則,即support(X→Y)≥min_sup且confidence(X→Y)≥min_conf,則稱為強(qiáng)關(guān)聯(lián)規(guī)則。通常,只有強(qiáng)關(guān)聯(lián)規(guī)則才是用戶感興趣的,因此,關(guān)

        聯(lián)規(guī)則的挖掘就是要發(fā)現(xiàn)所有滿足用戶定義的最小支持度和最小置信度的強(qiáng)關(guān)聯(lián)規(guī)則。

        挖掘強(qiáng)關(guān)聯(lián)規(guī)則兩個基本步驟如下:

        (1)找出頻繁項(xiàng)集:通過用戶給定最小支持度閾值min_sup,尋找所有頻繁項(xiàng)集,即僅保留大于或等于最小支持度閾值的項(xiàng)集;

        (2)生成強(qiáng)關(guān)聯(lián)規(guī)則:通過用戶給定最小置信度閾值min_conf,在頻繁項(xiàng)集中尋找關(guān)聯(lián)規(guī)則,即刪除不滿足最小置信度閾值的規(guī)則。

        1.2 關(guān)聯(lián)規(guī)則Apriori算法

        由R.Agrawal提出的Apriori算法是最為著名的關(guān)聯(lián)規(guī)則算法[3],它利用頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(prior knowledge),通過層次搜索的迭代方法,逐步完成頻繁項(xiàng)目集的發(fā)現(xiàn),為了發(fā)掘有意義的關(guān)聯(lián),一般需要給定兩個閾值:最小支持度(min_sup)和最小置信度(min_conf),其中,頻繁項(xiàng)集就是指一個項(xiàng)目集 X滿足最小支持度(Support(X)>=min_sup)。

        Apriori算法由連接(join)和修剪(prune)兩個操作步驟[4]-[5]:

        連接(join)步驟:為了找出Lk,可以將Lk-1與自己連接產(chǎn)生候選k項(xiàng)集的集合,該候選k項(xiàng)集記為Ck。Lk-1中的兩個元素L1和L2可以執(zhí)行連接操作的條件是:

        (2)修剪(prune)步驟:一個k項(xiàng)集,如果它的一個k-1項(xiàng)集不是頻繁的,那它本身也不可能是頻繁的。為了減少計算量,可以使用Apriori性質(zhì),即如果一個候選k項(xiàng)集任一子集((k-1)項(xiàng)集)不屬于Lk-1,那么該候選k項(xiàng)集不可能成為一個頻繁k項(xiàng)集,因而可以直接從Ck刪除。

        Apriori算法核心思想如下[6]:

        2 關(guān)鍵技術(shù)及實(shí)現(xiàn)

        2.1 書目檢索關(guān)聯(lián)規(guī)則的基本定義

        通過上面對關(guān)聯(lián)規(guī)則及Apriori算法的介紹,可知,在Apriori算法中,由于多遍掃描事務(wù)數(shù)據(jù)庫,產(chǎn)生數(shù)量巨大的候選項(xiàng)集,支持度計數(shù)工作十分繁重,這些都會影響算法的效率,而對于高校圖書館中圖書的海量信息來說,書目檢索功能需要具備高效性,兩者存在沖突矛盾。因此本文提出一種改進(jìn)的關(guān)聯(lián)規(guī)則生成算法,并給出與關(guān)聯(lián)規(guī)則等價的定義[7]。

        支持度(S):規(guī)則X→Y的支持度是指“H中包含X∪Y的借書者與全部借書者的百分比”。

        置信度(C):規(guī)則X→Y的置信度是指:“借閱歷史數(shù)據(jù)庫中既包含了X又包含了Y的借書者占所有包含了X的借書者的百分比”。

        目標(biāo):找出H中所有滿足支持度和置信度分別高于借書者指定的最小支持度(min_sup)和最小置信度(min_conf)的關(guān)聯(lián)規(guī)則,即頻繁圖書項(xiàng)目集就是同時滿足大于閾值α和 β的圖書項(xiàng)目集。

        2.2 書目檢索算法的基本思想

        針對書目檢索關(guān)聯(lián)規(guī)則算法,本節(jié)主要將其時間復(fù)雜度降低為冪函數(shù),并給出如下的算法[8,9]:

        (1)依據(jù)歷史借閱記錄,將大于閾值α和β的值無重復(fù)的添加到H中,產(chǎn)生頻繁圖書項(xiàng)目集,具體步驟如下所示:

        a.把數(shù)據(jù)庫中的借閱記錄按照借書者進(jìn)行排序;

        b.對每本圖書的借閱頻率f進(jìn)行掃描,并確定最大借閱頻率F;

        c.對每本圖書借閱的借書者p數(shù)量進(jìn)行掃描,并確定借

        書者總數(shù)P;

        d.對同一借書者借閱的同本圖書進(jìn)行掃描,并做出記號flag;

        e.依據(jù)f、F、p、P、flag建立頻繁圖書項(xiàng)目集。

        (2)依據(jù)頻繁圖書項(xiàng)目集產(chǎn)生書目檢索關(guān)聯(lián)規(guī)則數(shù)據(jù)庫,具體步驟如下所示:

        a.對頻繁圖書項(xiàng)目集中的借閱記錄按照借書者進(jìn)行排序;

        b.對頻繁圖書項(xiàng)目集中借書者總數(shù)進(jìn)行掃描;

        c.在借閱的圖書中,對于同一借書者獲取其“前件圖書”及“后件圖書”;

        d.在其他同一借書者借閱的圖書中檢索相同的“前件圖書”和“后件圖書”是否存在;

        e.假如存在,對同時持有“前件圖書”和“后件圖書”的借書者數(shù)量進(jìn)行掃描;

        f.參照借書者人數(shù)和總?cè)藬?shù),進(jìn)行支持度的計算;

        g.參照借書者人數(shù)和持有“前件圖書”的借書者人數(shù),進(jìn)行置信度的計算;

        h.在關(guān)聯(lián)規(guī)則數(shù)據(jù)庫中,對有相同“前件圖書”和“后件圖書”記錄進(jìn)行掃描,掃描其是否存在。若不存在,分兩條書目檢索規(guī)則增添到關(guān)聯(lián)規(guī)則數(shù)據(jù)庫中,即一條以“前件圖書”、“后件圖書”、支持度、置信度作為檢索關(guān)聯(lián)規(guī)則,另一條以“后件圖書”、“前件圖書”、支持度、置信度作為書目檢索;

        i. 循環(huán)執(zhí)行步驟c-h,直到掃描完所有借書者借閱所有圖書。

        (3)在書目檢索關(guān)聯(lián)規(guī)則數(shù)據(jù)庫中,利用初始的“前件圖書”查詢“后件圖書”;

        (4)假如檢索成功,就以“后件圖書”作為新的“前件圖書”進(jìn)行檢索,直到出現(xiàn)相同圖書或者檢索失敗為止。由此獲得與起始“前件圖書”直接或者間接相關(guān)的圖書項(xiàng)目集。

        2.3 數(shù)據(jù)源的選取

        我校圖書館共計藏書282萬冊,本文僅對教師、本科生、碩士和博士研究生的一天借閱量進(jìn)行統(tǒng)計,平均每天可達(dá)2000余冊,一年借閱量在50萬余冊。在這些數(shù)據(jù)背后隱藏著大量有用的、有價值的信息。因此,本文以圖書歷史借閱記錄作為書目檢索功能的研究對象,開展圖書關(guān)聯(lián)性的挖掘研究。本文選取我校2011年7月-2015年7月的借書者借閱歷史記錄為書目檢索模塊進(jìn)行實(shí)例說明。

        2.4 數(shù)據(jù)預(yù)處理

        本文從圖書館管理系統(tǒng)中抽取了一下數(shù)據(jù)集:證件號、索書號、條碼號、題名、責(zé)任者、借閱日期、應(yīng)還日期、館藏地等信息,原數(shù)據(jù)如圖1所示:

        圖1 借書者記錄表

        在關(guān)聯(lián)規(guī)則挖掘前,需要對圖書借閱數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理[10]就是對采集到的用戶原始的行為數(shù)據(jù)進(jìn)行分析,清除與挖掘目標(biāo)無關(guān)的屬性,提供一組干凈準(zhǔn)確的、可以挖掘的、適宜分析的對象。

        (1)需要完善借書者記錄表。對于主屬性(如證件號、索書號、條碼號、題名)為空的值,將其記錄刪除,部分借書者屬性值顯示不全的記錄,可以將其補(bǔ)全,保證與關(guān)聯(lián)規(guī)則挖掘相關(guān)的主屬性不能為空。

        (2)刪除借書者記錄表中無關(guān)聯(lián)的屬性值。對于條形碼、責(zé)任者、借閱日期、應(yīng)還日期、館藏地等與關(guān)聯(lián)規(guī)則挖掘無關(guān)的屬性列,可以直接刪除,以便提高挖掘效率。

        (3)針對借書者記錄表中內(nèi)容一致性進(jìn)行檢查。如專業(yè)重組或者重新分類時,造成學(xué)生學(xué)號(即數(shù)據(jù)庫中的證件號)反生變化,從而生成錯誤的證件號信息。

        執(zhí)行完(1)-(3)步數(shù)據(jù)清理的操作后,產(chǎn)生的借閱證記錄表如圖2所示:

        圖2 預(yù)處理后的借書者檢索記錄

        2.5 系統(tǒng)實(shí)現(xiàn)和挖掘分析

        本文通過多次調(diào)試,采用等價的關(guān)聯(lián)規(guī)則算法進(jìn)行頻繁項(xiàng)集的挖掘,最后確定α的取值為0.608和β的取值為0.15,在次條件下挖掘的支持度和置信度一定大約α和β,其挖掘結(jié)果如圖3所示:

        圖3 生成的關(guān)聯(lián)規(guī)則

        在圖3中雙擊第1條記錄,可以生產(chǎn)書目-書目類別的關(guān)聯(lián)分析圖,生成效果如圖4所示:

        圖4 書目關(guān)聯(lián)分析圖

        通過圖書館書目檢索平臺的分析結(jié)果,可以得出,借閱量相對較高的圖書是計算機(jī)類和英語類,由此生成的關(guān)聯(lián)規(guī)則也較多。

        3 總結(jié)

        現(xiàn)代高校圖書館要面向借書者提供個性化的服務(wù),就需要對借書者的需求進(jìn)行有效的數(shù)據(jù)挖掘,提供智能化的服務(wù)。相比傳統(tǒng)的現(xiàn)行檢索和僅靠關(guān)鍵字檢索,采用等價的關(guān)聯(lián)規(guī)則構(gòu)建的書目檢索個性化推薦模型,可以找到借閱書目之間隱藏的關(guān)聯(lián)性,向借書者推薦的檢索結(jié)果是具有強(qiáng)關(guān)聯(lián)的書目信息。本文在算法的選擇上雖然采用了等價的關(guān)聯(lián)規(guī)則算法,提高了檢索效率,但在時間和空間的復(fù)雜性方面還有一定局限,在今后的研究工作中,可以考慮用其他算法進(jìn)行改進(jìn),進(jìn)一步提高檢索功能的運(yùn)行效率。

        [1] Bing Liu.Web數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2013.

        [2] 曾令明,唐常杰,陰小雄,李川,胡建軍,蔣永光.雙向關(guān)聯(lián)規(guī)則挖掘及其相關(guān)性分析[J].計算機(jī)工程與設(shè)計,2005,26(10):2585-2588.

        [3] 趙祖應(yīng),丁勇,鄧平.基于Apriori算法的購物籃關(guān)聯(lián)規(guī)則分析[J].江西科學(xué),2012,30(01):96-98.

        [4] 陳世保,吳國鳳.一種改進(jìn)的Apriori算法在試卷評估中的應(yīng)用研究[J].井岡山大學(xué)學(xué)報(自然科學(xué)版),2012,33(02):58-62.

        [5] 劉華婷,郭仁祥,姜浩.關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究和改進(jìn)[J].計算機(jī)應(yīng)用與軟件,2014,26(01):1-3.

        [6] 紀(jì)系禹、韓秋明,等.?dāng)?shù)據(jù)挖掘技術(shù)應(yīng)用實(shí)例[M].北京:機(jī)械工業(yè)出版社,2009.

        [7] 張瑞云.基于關(guān)聯(lián)規(guī)則模式的數(shù)字圖書館智能檢索研究[J].電子技術(shù),2013,(09):73-75.

        [8] 李欣.基于關(guān)聯(lián)規(guī)則的圖書館圖書智能查詢系統(tǒng)研究[D].吉林:東北師范大學(xué),2012:20-29.

        [9] Osmar R.Zaiane,Mohammad EI-Hajj,Paul Lu.Fast Parallel Assocation Rule Mining Without Candidate Generation.2001:115-126.

        [10] 況莉莉.?dāng)?shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理在圖書借閱中的應(yīng)用[J].淮北職業(yè)技術(shù)學(xué)院學(xué)報,2011,10(03):117-119.

        Research on Key Issues in Personalized Recommendation Based on Bibliographic Retrieval Function

        Zhang Liang
        (Network Information Center, China University of Petroleum (East China), Qingdao 266500, China)

        College library provides an important learning and research environment and is also an important channel that teachers and students can access reference resources. Currently, in some colleges and universities bibliographical retrieval function still remains in the traditional linear search and keyword search levels. The hidden massive borrowing records can not be found. Demand for the borrower can not be predicted. Association rules is to mine correlation between the valuable date from the massive data. In bibliographic retrieval module, this paper intends to use the equivalent of association rules to achieve a personalized book recommendation. So that borrowers find their own interest in the mass of book information materials.

        Data mining; Personalized; Association rules; Bibliographic retrieval

        TP311

        A

        1007-757X(2016)11-0039-03

        2016.10.01)

        高等教育研究基金(GJKT201502)

        張 亮(1981-),男,漢族,江蘇啟東,中國石油大學(xué)(華東),網(wǎng)絡(luò)及教育技術(shù)中心,計算機(jī)技術(shù)碩士,工程師,研究方向:計算機(jī)信息和網(wǎng)絡(luò)技術(shù),青島 266500

        猜你喜歡
        項(xiàng)集借書置信度
        圖圖借書
        硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
        借書去
        正負(fù)關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
        借書
        快樂語文(2018年12期)2018-06-15 09:11:10
        圖圖借書
        置信度條件下軸承壽命的可靠度分析
        軸承(2015年2期)2015-07-25 03:51:04
        關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
        卷宗(2014年5期)2014-07-15 07:47:08
        一種頻繁核心項(xiàng)集的快速挖掘算法
        多假設(shè)用于同一結(jié)論時綜合置信度計算的新方法?
        岛国av一区二区三区| a级毛片高清免费视频就| 丰满人妻妇伦又伦精品国产| 亚洲va在线va天堂va四虎| 麻豆视频黄片在线免费观看| 久久久久亚洲av成人人电影| 亚洲日本在线电影| 国产免费久久精品99re丫y| 国产一区二区三区不卡在线播放| 精品国产午夜肉伦伦影院| 无码中文字幕日韩专区视频| 女人体免费一区二区| 精品午夜中文字幕熟女| 国产激情久久久久影院小草| 久久综合九色综合欧美狠狠| 国产免费播放一区二区| 极品少妇一区二区三区四区视频| av无码国产精品色午夜| 国产成人一区二区三区在线观看| 国产欧美日韩专区毛茸茸| 亚洲av调教捆绑一区二区三区| 亚洲人成网线在线播放va蜜芽| 天天干成人网| 亚洲不卡av不卡一区二区| 国产自产二区三区精品| 精品人妻中文无码av在线| 国产成人啪精品午夜网站| 国产一区二区在线观看av| 在线无码中文字幕一区| 一本之道高清无码视频| 国产精品女同久久免费观看| 久久99国产综合精品女同| 国产女人的高潮国语对白| 精品国产国产AV一区二区| 亚洲国产av精品一区二| 视频一区视频二区制服丝袜| 人妻丰满熟妇av无码处处不卡| 亚洲日本VA午夜在线电影| 成人自拍小视频在线看| 国产激情久久久久影院老熟女 | 亚洲精品乱码8久久久久久日本|