亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        圖書信息檢索中讀者興趣偏好挖掘模型的建立仿真*

        2017-04-19 03:17:58張福泉
        沈陽工業(yè)大學學報 2017年2期
        關鍵詞:查準率信息檢索數(shù)據(jù)挖掘

        馮 靜, 張福泉

        (1.新疆師范大學 圖書館, 烏魯木齊 830054;2.北京理工大學 軟件學院, 北京 100081)

        圖書信息檢索中讀者興趣偏好挖掘模型的建立仿真*

        馮 靜1, 張福泉2

        (1.新疆師范大學 圖書館, 烏魯木齊 830054;2.北京理工大學 軟件學院, 北京 100081)

        針對傳統(tǒng)挖掘模型對圖書信息檢索中讀者興趣偏好數(shù)據(jù)進行挖掘時,存在的挖掘效率低、耗時長等問題,提出基于聚類分析的讀者興趣偏好挖掘模型.采用分類索引分布樹法對圖書相似度與讀者興趣距離進行計算,通過興趣因子對興趣偏好度進行度量,并以此為基礎,采用相關反饋模型Rocchio算法對讀者興趣圖書檢索進行擴展,引入聚類分析法建立圖書信息檢索中讀者興趣偏好挖掘模型.實驗仿真結果表明,采用改進模型時,其挖掘效率、時間及誤差均優(yōu)于傳統(tǒng)模型.

        圖書信息;檢索;讀者興趣偏好;挖掘模型;興趣因子;興趣距離;圖書相似度;擴展

        計算機信息網(wǎng)絡及通訊技術的飛速發(fā)展給人們日常生活帶來了極大的便利,各行各業(yè)存儲了大量關于產品和用戶的數(shù)據(jù)信息,導致數(shù)據(jù)庫技術得到了越來越多的重視[1-3].圖書館也開始利用信息技術來提高自己的軟件條件,讀者每天都會對圖書館中各種資源加以利用,使得圖書館數(shù)據(jù)庫中積累了大量的數(shù)據(jù)信息,而這些信息中隱藏了很多值得工作者去深入研究的關系信息[4-5].如讀者與借閱圖書之間的關聯(lián)規(guī)則,若是掌握好這些規(guī)則,則可以對讀者進行個性化圖書推薦,實現(xiàn)讀者興趣偏好的預估.如何對圖書檢索中讀者興趣偏好數(shù)據(jù)進行高效準確地挖掘成為了該領域重點研究的方向,文獻[6]提出一種基于多層安全相關屬性標定的偏好數(shù)據(jù)挖掘模型,并使用決策算法得到挖掘數(shù)據(jù),所提出的挖掘模型提高了數(shù)據(jù)的準確性與選擇數(shù)據(jù)的安全性,但其整體挖掘時間較長.文獻[7]以男士上衣為例,通過問卷調查得出數(shù)據(jù)信息,并采用K-means聚類算法,利用專業(yè)的數(shù)據(jù)挖掘軟件處理數(shù)據(jù),擬合出具有代表性的設計模型.所提出的模型可以有效揭示不同類型消費者的偏愛度,但其建模方法復雜,需要應用專業(yè)軟件.本文針對上述問題,提出一種基于聚類分析的偏好挖掘模型,無需其他專業(yè)軟件輔助,提高了挖掘的效率與準確性.

        1 興趣偏好統(tǒng)計與計算

        1.1 圖書相似度與讀者興趣距離計算

        在對讀者興趣偏好進行度量時,首先需要對圖書相似度與讀者興趣距離進行計算,本文采用分類索引分布樹法對其進行計算[8].兩名讀者S1、S2所借閱圖書之間相似度的計算方法如下:

        1) 當兩名讀者所借閱圖書的分類索引號完全相同時,說明讀者借閱的是同一本圖書或者是兩本類似的圖書,則計算圖書之間的相似度需考慮讀者對該圖書的借閱時間.將該圖書的平均借閱時間與讀者借閱所有書籍的平均借閱時間進行比較,計算得到的比值反應出圖書的相似度,即

        (1)

        式中:x、y為兩名讀者所借閱的具有完全相同分類索引號的圖書;T1x、T2y為兩名讀者S1、S2對圖書x、y的借閱時間;m、n分別為兩名讀者S1、S2借閱圖書的行為數(shù);T1j、T2j為兩名讀者S1、S2對圖書j的借閱時間.

        (2)

        式中:d(a)、d(b)分別為圖書a、b的分類號在圖書分類索引分布樹中的所屬深度;d(NCA(a,b))為最近共同標志在圖書分類索引分布樹中的所屬深度.

        根據(jù)式(1)和(2)可以得到圖書相似度與讀者興趣間的距離為

        (3)

        式中,l為讀者所借閱圖書間相似度的個數(shù).通過采用分類索引分布樹法對圖書相似度與讀者興趣距離進行計算,可為圖書信息檢索中讀者興趣偏好數(shù)據(jù)聚類提供基礎依據(jù).

        1.2 讀者興趣偏好的度量

        在對圖書相似度與讀者興趣距離進行計算的基礎上,利用一種興趣因子來衡量關聯(lián)規(guī)則的興趣偏好程度,其被定義為兩個變量的聯(lián)合概率密度除以兩個變量期望概率的乘積.

        TF-IDF(term frequency-inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權技術,在圖書信息檢索中可用其來衡量讀者的感興趣程度.TF值越大,表明興趣偏好程度越高,如果一個圖書信息在讀者興趣偏好中出現(xiàn)的頻率很低,則這本圖書易于區(qū)分和識別.TF-IDF權值計算表達式為

        (4)

        式中:fij為讀者感興趣圖書ui使用標簽tj在圖書信息檢索中出現(xiàn)的次數(shù);N為訓練集中讀者感興趣的總圖書數(shù)量;ni為訓練集中出現(xiàn)的特征項的圖書數(shù)量;Di為讀者感興趣圖書ui的標簽結合.

        讀者興趣偏好可以利用讀者感興趣的圖書集合來度量.圖書標簽映射的項目數(shù)為圖書被讀者選取次數(shù),利用TF-IDF方法計算讀者喜歡圖書ui標簽tj的權重,即

        (5)

        式中,n0為圖書檢索中標簽tj的讀者數(shù)量.

        假設兩本圖書分類號為A和B,則讀者興趣偏好關聯(lián)度可表示為

        (6)

        該因子為一個非負實數(shù),在等于1的時候,表示兩個變量相互獨立.讀者興趣偏好支持度域值可以較好地去掉那些負相關及不相關的讀者信息,因此,如果讀者興趣偏好的度量中含有支持度,則可以更為準確地定義一個讀者信息興趣偏好程度.讀者興趣偏好表達式為

        (7)

        IS(A1,A2,…,Ak?Ak+1,Ak+2,…,An)=

        (8)

        式(7)與(8)僅適合于比較由同一個項集所產生的讀者興趣偏好度.支持度域值可以用于裁剪那些負相關或不相關的讀者興趣偏好信息,而讀者興趣的信任度則說明了該偏好度的統(tǒng)計重要性,因此一個較為理想的判別模型應該同時體現(xiàn)這兩者的作用.假設r、r′分別為原始讀者興趣偏好及待比較讀者興趣偏好,則圖書對于讀者的興趣偏好度可表示為

        (9)

        式中:c、c′、s、s′分別為原始讀者與待比較讀者對圖書的支持度和信任度;w1、w2為分配權值,w1+w2=1.由式(9)可知,如果一個讀者的興趣偏好Ics值大于1,則說明該圖書更受讀者喜歡,且該值越大,表明興趣偏好程度越高.

        2 信息檢索擴展與挖掘模型建立

        在對圖書信息檢索中讀者興趣偏好進行度量的基礎上,采用數(shù)據(jù)聚類分析法建立圖書信息檢索中讀者興趣偏好挖掘模型.

        2.1 讀者興趣圖書檢索擴展

        采用相關反饋模型Rocchio算法,根據(jù)相關圖書和不相關圖書進行修正檢索,檢索量表達式為

        (10)

        式中:qm為修正的檢索量;q0為初始檢索量;α、β、γ為調整參數(shù),取值為1;Dr為相關圖書檢索深度集合;Dnr為不相關圖書檢索深度集合;dj為檢索深度.檢索擴展詞在與檢索相關的類別圖書中進行特征提取,然后計算檢索與該類特征詞的相似度,相似度高的加入檢索擴展詞庫.該檢索擴展的特點是相關圖書類別是通過模型系統(tǒng)計算得出的,不需要讀者判別,減輕檢索負擔,提高讀者興趣偏好的挖掘效果.

        但是一些相關度小的圖書信息的加入對系統(tǒng)來講是噪聲信息,有研究學者提出了擴展噪聲對查詢性能的影響,當擴展查詢達到25個時,檢索精度下降,所以本文加入20個擴展詞進行讀者興趣偏好挖掘.

        2.2 讀者興趣偏好挖掘模型建立

        在對圖書檢索進行擴展的基礎上,采用聚類分析法建立讀者興趣偏好挖掘模型,詳細步驟如下:

        1) 建立讀者注冊信息向量.讀者注冊信息包括姓名、年齡、性別、身份證號,此時可用一個集合(姓名、年齡、性別、身份證號)表示讀者基本信息,轉換為表達式形式為Y=(y1,y2,y3,y4).

        2) 基于K-MEANS算法的讀者信息聚類.針對讀者的基本信息,采用K-MEANS算法將讀者信息聚類為K類穩(wěn)定信息集合.假設數(shù)據(jù)點的集合P=(Y1,Y2,…,Ym),其中Yi=(yi1,yi2,yi3,yi4),i=1,2,…,m.把數(shù)據(jù)點集合劃分為K個分組,即G1,G2,…,GK.

        3) 聚類獲取讀者的興趣偏好.利用步驟2)的K-MEANS算法把讀者信息樣本聚為K類,每類興趣采用集合<類別,關鍵字,權值>的形式來表示,以此表達每一類讀者的總體特征,進而得出K類讀者的共同偏好,即

        NL={〈e1,f1,w11〉,〈e2,f2,w22〉,〈e2,f3,w23〉,

        …,〈e2,fg,w2g〉,…,〈ei,fj,wij〉}

        (11)

        式中:g、j為聚類獲取的每一類讀者偏好的關鍵字個數(shù);i=1,2,…,K為偏好類別.

        4) 構建讀者興趣偏好挖掘模型.讀者興趣偏好受到短期檢索圖書興趣和長期檢索圖書興趣兩方面的影響,因此讀者的興趣偏好可表示為

        H={M,N}

        (12)

        式中:M為短期檢索圖書興趣;N為長期檢索圖書興趣.由于讀者興趣的多樣性,可將M和N分別表示為

        (13)

        為了更詳細地區(qū)分讀者興趣程度,興趣向量應該蘊涵大量的資源信息.針對每一個Oi、Lj(i=1,2,…,m;j=1,2,…,n)來說,應引進類別屬性變量Ei、Ej與權重屬性變量Fi、Fj,則Oi、Lj可進一步表示為

        Oi=〈Oi,F(xiàn)i,Ei〉 (i=1,2,…,m)

        (14)

        Lj=〈Lj,F(xiàn)j,Ej〉 (j=1,2,…,n)

        (15)

        則讀者興趣偏好挖掘模型可以表示為

        (16)

        式中:Om、Ln分別為短期檢索圖書興趣與長期檢索圖書興趣的某個屬性值;Em+n為讀者興趣對應的圖書屬性類別;Fm+n為屬性值的興趣權重,表示讀者對某類圖書的感興趣程度.至此實現(xiàn)了圖書信息檢索中讀者興趣偏好挖掘模型的建立.

        3 實驗結果與分析

        為了驗證改進模型在偏好挖掘中的效果,實驗數(shù)據(jù)采用了某學校圖書館數(shù)據(jù)庫的汽車、IT、體育、旅游、教育及軍事等6類文本,每類3 000本圖書,總計18 000本,其中12 000本用來訓練,6 000本用來測試.讀者搜索歷史表示檢索和瀏覽相關圖書,假設讀者平均每天檢索6本,并跟蹤了30天的搜索歷史記錄.通過讀者興趣偏好模型挖掘讀者興趣,構建讀者文檔和檢索特征矩陣、圖書和類別特征矩陣、檢索和類別特征矩陣,最后對讀者興趣度進行排序,類別興趣度越高,讀者對該類圖書越感興趣.

        為了驗證改進模型的查準率,將改進模型與文獻[6]、文獻[7]模型進行了查準率方面的對比,對比結果如圖1所示.

        圖1 不同模型下的查準率對比Fig.1 Comparison in precision ratio with different models

        由圖1可知,圖書信息量為10 000時,采用文獻[6]模型查準率約為35.4%,隨著圖書信息量的增加,讀者興趣偏好查準率也隨之增加;文獻[7]模型查準率約為55.1%,相比文獻[6]模型查準率提高了約19.7%;采用改進模型時,其查準率約為80.2%,且隨著圖書信息量的增加,讀者興趣偏好查準率也隨之增加,最高時達到了97.6%,相比文獻[6]與[7]模型的查準率分別提高了44.8%和25.1%,在查準率方面具備一定的優(yōu)勢.

        圖2為3種模型在不同興趣偏好數(shù)據(jù)條件下挖掘時間的對比示意圖.由圖2可知,文獻[6]模型平均挖掘時間約為5.4 s,且隨著讀者興趣偏好數(shù)據(jù)量的增加,讀者興趣偏好挖掘時間也隨之降低;文獻[7]模型平均挖掘時間約為6.8 s,相比文獻[6]模型的挖掘時間增加了約1.4 s;采用改進模型時,其平均挖掘時間約為3.8 s,且隨著讀者興趣偏好數(shù)據(jù)量的增加,讀者興趣偏好挖掘時間也隨之降低,最低時達到了2 s.

        圖2 不同模型下挖掘時間對比Fig.2 Comparison in mining time with different models

        圖3為3種模型在不同興趣偏好數(shù)據(jù)條件下挖掘準確率的對比示意圖.由圖3可以看出,采用文獻[6]模型時,準確率隨著興趣偏好數(shù)量的增加出現(xiàn)先增加后降低的情況,數(shù)據(jù)量在1 000之后降到最低;采用文獻[7]模型時,出現(xiàn)了建模準確率不穩(wěn)定的情況;而采用改進模型時,其建模準確率大大提高,且準確率隨著數(shù)據(jù)量的增加而增加.

        圖3 不同建模方法的準確率對比Fig.3 Comparison in accuracy for different modeling methods

        4 結 論

        針對傳統(tǒng)挖掘模型對圖書信息檢索中讀者興趣偏好數(shù)據(jù)挖掘時存在的挖掘效率低、耗時長的問題,提出基于聚類分析的讀者興趣偏好挖掘模型建立方法.在對讀者興趣偏好進行度量時,首先需要計算圖書相似度與讀者興趣的距離,并以此為基礎采用相關反饋模型Rocchio算法,根據(jù)相關圖書和不相關圖書進行修正檢索,對讀者興趣圖書檢索進行擴展,構建讀者興趣偏好挖掘模型.實驗結果表明,采用改進模型時,查準率較高,挖掘時間更短且誤差較小.

        [1]王曉艷,林昌意.基于查詢意圖的中文信息類網(wǎng)頁分類研究 [J].圖書情報工作,2015,59(1):113-118.

        (WANG Xiao-yan,LIN Chang-yi.Research on Chinese informational webpage classification based on query intention [J].Library and Information Service,2015,59(1):113-118.)

        [2]王元卓,賈巖濤,劉大偉,等.基于開放網(wǎng)絡知識的信息檢索與數(shù)據(jù)挖掘 [J].計算機研究與發(fā)展,2015,52(2):456-474.

        (WANG Yuan-zhuo,JIA Yan-tao,LIU Da-wei,et al.Open web knowledge aided information search and data mining [J].Journal of Computer Research and Development,2015,52(2):456-474.)

        [3]譚亮,陳燕,楚存坤.基于研究性學習的信息檢索課教學效果實證研究 [J].大學圖書館學報,2014,32(2):72-75.

        (TAN Liang,CHEN Yan,CHU Cun-kun.Information retrieval course’s problem-based learning practice research [J].Journal of Academic Libraries,2014,32(2):72-75.)

        [4]李亞琴,孫建軍,楊月全,等.基于信息檢索用戶的相關性行為研究進展 [J].情報科學,2014,32(5):157-160.

        (LI Ya-qin,SUN Jian-jun,YANG Yue-quan,et al.A study of the information retrieval user-oriented beha-vior of relevance [J].Information Science,2014,32(5):157-160.)

        [5]卜質瓊,鄭波盡.基于 LDA 模型的 Ad hoc 信息檢索方法研究 [J].計算機應用研究,2015,32(5):1369-1372.

        (BU Zhi-qiong,ZHENG Bo-jin.Ad hoc information retrieval method based on LDA [J].Application Research of Computers,2015,32(5):1369-1372.)

        [6]王琰.一種多層安全相關屬性標定偏好數(shù)據(jù)挖掘模型 [J].科技通報,2015,31(12):176-178.

        (WANG Yan.A multi-layer safety related attribute cali-bration preference data mining model [J].Bulletin of Science and Technology,2015,31(12):176-178.)

        [7]呂佳,陳東生.基于聚類算法的服裝感性數(shù)據(jù)挖掘方法 [J].紡織學報,2014,35(5):108-112.

        (Lü Jia,CHEN Dong-sheng.Fashion perceptual data mining based on clustering algorithm [J].Journal of Textile Research,2014,35(5):108-112.)

        [8]單冬紅,史玉珍.數(shù)據(jù)挖掘技術在互聯(lián)網(wǎng)信息檢索中的應用研究 [J].科技通報,2014,30(3):161-164.

        (SHAN Dong-hong,SHI Yu-zhen.Application research of data mining technology in the internet information retrieval [J].Bulletin of Science and Technology,2014,30(3):161-164.)

        [9]Sotudeh H,Mazarei Z,Mirzabeigi M.Bookmarks are correlated to citations at journal and author levels in library and information science [J].Scientometrics,2015,105(3):2237-2248.

        (責任編輯:景 勇 英文審校:尹淑英)

        Establishment and simulation of mining model for interest preference of readers in book information retrieval

        FENG Jing1,ZHANG Fu-quan2

        (1.Library,Xinjiang Normal University,Urumqi 830054,China;2.School of Software,Beijing Institute of Technology,Beijing 100081,China)

        Aiming at the problem that such detects as low mining efficiency and large error always exist when the traditional mining model is used to mine the interest preference data of readers in the book information retrieval,a mining model for the interest preference of readers was proposed.The distance between the book similarity and reader interest was calculated with the classification index distribution tree method.In addition,the interest preference level was measured through interest factor.On this basis,the interest book retrieval for readers was extended with the relevance feedback model Rocchio algorithm,and the mining model for interest preference of readers in the book information retrieval was established with the clustering analysis method.The results show that the mining efficiency,time and error of the improved model are superior to those of the traditional models.

        book information;retrieval;interest preference of readers;mining model;interest factor;interest in distance;book similarity;extension

        2016-09-26.

        國家教育部博士點基金項目(20121101110037).

        馮 靜(1978-),女,山東臨清人,講師,碩士,主要從事圖書信息檢索、圖像情報及計算機仿真等方面的研究.

        02 17∶28在中國知網(wǎng)優(yōu)先數(shù)字出版.

        http:∥www.cnki.net/kcms/detail/21.1189.T.20170302.1728.012.html

        10.7688/j.issn.1000-1646.2017.02.13

        TP 250.7

        A

        1000-1646(2017)02-0188-05

        猜你喜歡
        查準率信息檢索數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于數(shù)據(jù)挖掘技術的網(wǎng)絡信息過濾系統(tǒng)設計
        大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于深度特征分析的雙線性圖像相似度匹配算法
        醫(yī)學期刊編輯中文獻信息檢索的應用
        新聞傳播(2016年18期)2016-07-19 10:12:06
        基于神經網(wǎng)絡的個性化信息檢索模型研究
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        教學型大學《信息檢索》公選課的設計與實施
        河南科技(2014年11期)2014-02-27 14:10:19
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        男性一插就想射是因为啥| 国产精品无码无在线观看| 999久久久无码国产精品| 久久久国产精品樱花网站| 人妻少妇无乱码中文字幕| 精品人妻久久一区二区三区| 亚欧免费无码aⅴ在线观看| 亚洲熟妇少妇69| 色偷偷亚洲av男人的天堂| 91久久国产香蕉视频| 国产伦理一区二区| 波多野结衣视频网址| 国产中文字幕亚洲综合| 国产亚洲一区二区三区综合片| 在线欧美中文字幕农村电影| 国产成人久久精品区一区二区 | 亚洲av无码国产精品色午夜软件| 精品久久欧美熟妇www| 丝袜美女污污免费观看的网站| 亚洲日本精品一区二区三区| 内射白浆一区二区在线观看| 国产成人乱色伦区| 人妻中出精品久久久一区二| 久久久黄色大片免费看| 国产特黄级aaaaa片免| 国产一在线精品一区在线观看 | 亚洲国产91精品一区二区| 国产精品爽爽ⅴa在线观看| 国产午夜福利短视频| 中文字幕亚洲区第一页| 精品亚洲第一区二区三区| 亚洲色成人网站www永久四虎| 中文字幕无码人妻丝袜| 国产精品一区二区蜜臀av| 无码色av一二区在线播放| 国产第19页精品| 亚洲国产精品国自产拍av在线| 在线观看免费日韩精品| 在线观看免费人成视频色9| 国产精品国产三级国产av创| 日本乱熟人妻中文字幕乱码69|