亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Lucene和協(xié)同過濾算法的知識推送

        2016-12-13 05:55:01唐東凱孫境棋劉澤豪
        關(guān)鍵詞:文本用戶

        肖 巍,唐東凱,孫境棋,劉澤豪

        (長春工業(yè)大學(xué) 計算機科學(xué)與工程學(xué)院,吉林 長春 130012)

        ?

        基于Lucene和協(xié)同過濾算法的知識推送

        肖 巍,唐東凱,孫境棋,劉澤豪

        (長春工業(yè)大學(xué) 計算機科學(xué)與工程學(xué)院,吉林 長春 130012)

        將Lucene檢索技術(shù)、IKAnalyzer分詞器以及Tika文本提取技術(shù)相結(jié)合進行智能文件檢索及分類。然后根據(jù)用戶的檢索結(jié)果對文件關(guān)鍵字進行權(quán)值設(shè)置,用戶關(guān)注度越高,則關(guān)鍵字權(quán)值越大。使用協(xié)同過濾算法根據(jù)用戶查找的內(nèi)容對用戶關(guān)注度高的文件進行推送。

        Lucene; IKAnalyzer; Tika; 協(xié)同過濾算法

        0 引 言

        互聯(lián)網(wǎng)上的學(xué)術(shù)論文、期刊文獻、專利數(shù)據(jù)庫、網(wǎng)絡(luò)媒體、社交平臺(微信、微博、博客、論壇)等載體上蘊藏著大量的專家研究成果、學(xué)術(shù)觀點、工作動態(tài)及最新言論等信息。在知識的不斷增加過程中,由于知識的來源不同、用途不同、載體不同等,往往導(dǎo)致知識的時間鏈條錯亂、關(guān)聯(lián)知識無法有效檢索、各類知識無法綜合運用等問題的出現(xiàn),伴隨知識的持續(xù)積累,這種問題愈發(fā)突出。如何能夠在快速有效地檢索出所需知識的同時推送相關(guān)知識內(nèi)容已經(jīng)成為目前研究的重點。

        1 智能知識檢索(LUCENE+IKAnalyzer+TIKA)

        智能檢索采用Lucene搜索技術(shù)、IKAnalyzer分詞器以及Tika文本提取三大技術(shù)相結(jié)合,提高了檢索精度,節(jié)省了檢索時間。Lucene是一個高性能的全文檢索工具[1]。Lucene包含了兩個主要的服務(wù):索引和檢索。

        1.1 Tika文本提取

        文本索引是Lucene重點構(gòu)造的一個索引區(qū)域,為高性能內(nèi)容查詢而創(chuàng)建的知識庫,并提供了豐富的API,可以與存儲在索引中的內(nèi)容交互,但是Lucene在創(chuàng)建索引時無法滿足深入到文件內(nèi)容中建立文件內(nèi)容的索引[2-3]。

        使用Tika文本提取技術(shù)對文件內(nèi)容進行索引。當(dāng)一個文件傳到Tika檢測文件類型時,一旦文檔類型是已知的,從解析器庫中選擇合適的解析器解析文件內(nèi)容,提取文本。通過使用Tika文本提取技術(shù),Lucene就可以對文件里面的內(nèi)容創(chuàng)建索引,提高了檢索的精度。

        1.2 檢索過程

        Lucene技術(shù)中存在著大量的檢索方式,可以進行精確搜索以及模糊搜索[4-5]。采用Lucene中的BoolenQuery()為整體框架,通過向其中傳入BooleanClause.Occur.MUST,BooleanClause.Occur.SHOULD,BooleanClause.Occur.MUST_NOT等參數(shù),控制搜索結(jié)果中是否包含所輸入的關(guān)鍵字,同時在BoolenQuery()中嵌入TermQuery()搜索,根據(jù)選擇的范圍進行精確搜索,例如文章的標(biāo)題、作者、內(nèi)容等。BoolenQuery()中又嵌入了FuzzyQuery(),選擇模糊搜索時,通過調(diào)節(jié)模糊的程度,自動向FuzzyQuery()中傳遞兩個參數(shù),分別控制搜索關(guān)鍵字的至少匹配字?jǐn)?shù)和文字間的間隔,從而實現(xiàn)模糊搜索。在BoolenQuery()中加入了TermRangeQuery(),通過向其中傳入上限及下限兩個數(shù)值來控制搜索某一區(qū)間的文件,如文件大小、日期等。

        1.3 IKAnalyzer分詞器

        Lucene中自帶了多種分詞器,但是對于中文來說效果并不是很好[6]。WhitespaceAnalyzer僅僅是去除空格,對字符沒有l(wèi)owcase化,不支持中文,并且不對生成的詞匯單元進行其他規(guī)范化處理;SimpleAnalyzer會去掉數(shù)字類型的字符;StopAnalyzer不支持中文?;谏鲜鰡栴},選擇IKAnalyzer分詞器對中文分詞效果比較好。具體如下:

        IKAnalyzer分詞器采用了特有的“正向迭代最細(xì)粒度切分算法”,具有60萬字/s的高速處理能力;采用了多子處理器分析模式,支持中文等多種分詞處理;支持用戶詞典擴展定義。針對Lucene全文檢索優(yōu)化的查詢分析器IKQueryParser;采用歧義分析算法優(yōu)化查詢關(guān)鍵字的搜索排列組合,能極大地提高Lucene檢索的準(zhǔn)確率。

        1.4 知識圖譜

        對所有知識進行分類,根據(jù)不同分類畫出知識圖譜,如圖1所示。

        圖1 知識圖譜

        根據(jù)用戶的檢索結(jié)果對文件關(guān)鍵字進行權(quán)值設(shè)置,用戶關(guān)注度越高,則關(guān)鍵字權(quán)值越大。在用戶檢索某一關(guān)鍵字時,先根據(jù)知識分類在該領(lǐng)域內(nèi)判斷,然后再根據(jù)關(guān)鍵字的用戶關(guān)注度進行推送。

        2 協(xié)同過濾算法

        協(xié)同過濾算法是推送系統(tǒng)領(lǐng)域最著名的算法[7-8]。簡單來說,就是當(dāng)一個用戶A需要個性化推送時,先找到和他興趣相似的用戶群體G,然后把G關(guān)注的、并且A沒有關(guān)注過的知識推送給A[9-10]。

        可以將該算法分為兩個步驟進行:

        1)發(fā)現(xiàn)興趣相似用戶。使用余弦相似度計算兩個用戶之間的相似度。設(shè)N(u)為用戶u關(guān)注的知識集合,N(v)為用戶v關(guān)注的知識集合,那么u和v的相似度可以用下式計算:

        (1)

        假設(shè)目前共用4個用戶A、B、C、D;共有5條知識a、b、c、d、e。用戶與知識的關(guān)系(用戶關(guān)注知識)如下:

        A:abc

        B:ac

        C:be

        D:cde

        為了能更好地計算用戶之間的相似度,需要建立“知識-用戶”的倒排:

        a:AB

        b:AC

        c:BD

        d:AD

        e:CD

        然后對于每條知識,關(guān)注他的用戶兩兩之間相同知識加1。例如關(guān)注知識a的用戶有A和B,那么在矩陣中他們兩兩加1,即

        計算用戶兩兩之間的相似度,上面的矩陣僅僅代表公式的分子部分。整體矩陣表示為:

        計算所有用戶的相似度,找到與目標(biāo)用戶興趣相似的用戶集合。

        2)推薦知識。首先需要從矩陣中找出與目標(biāo)用戶u最相似的K個用戶,用集合S(u,K)表示,將S中用戶關(guān)注的知識全部提取出來,并去除u已經(jīng)關(guān)注的知識。對于每個知識i,用戶u對它感興趣的程度按下式計算:

        (2)

        式中:rvi——用戶v對i的關(guān)注程度。

        假設(shè)現(xiàn)在要給A推薦知識,選取K(K=3)個相似用戶,相似用戶則是B、C、D,那么他們關(guān)注過并且A沒有關(guān)注過的知識有c、e,分別計算p(A,c)和p(A,e):

        得出用戶A對c和e的關(guān)注程度一樣,根據(jù)得分排序,找出K個與目標(biāo)用戶最相似的鄰居。

        在這些鄰居關(guān)注的知識中,根據(jù)鄰居與用戶的遠(yuǎn)近程度算出每一條知識的推薦度。根據(jù)每一條知識的推薦度高低給目標(biāo)用戶推送知識。

        3 實驗結(jié)果

        使用30萬條數(shù)據(jù)對Lucene+IKanalyzer+Tika和Lucene檢索的準(zhǔn)確度和速度進行測試,測試結(jié)果見表1。

        表1 檢索準(zhǔn)確度及速度結(jié)果

        使用30萬條數(shù)據(jù)對檢索后進行推送和未經(jīng)過檢索處理進行推送測試,測試結(jié)果見表2。

        表2 推送準(zhǔn)確度結(jié)果 %

        實驗結(jié)果表明,使用Lucene+IKanalyzer+Tika三種技術(shù)比使用Lucene的準(zhǔn)確度更高,速度更快。檢索后使用協(xié)同過濾算法進行推送比不進行檢索使用協(xié)同過濾推送的準(zhǔn)確率高。

        4 結(jié) 語

        使用Lucene檢索技術(shù)、IKAnalyzer分詞器以及Tika文本提取三種技術(shù)相結(jié)合的方式進行智能檢索并對文件進行分類,分類后根據(jù)用戶的檢索結(jié)果對文件關(guān)鍵字進行權(quán)值設(shè)置,用戶關(guān)注度越高,則關(guān)鍵字權(quán)值越大。實驗結(jié)果表明,使用三種技術(shù)結(jié)合比只使用Lucene一種檢索速度更快,準(zhǔn)確度更高?;谌N技術(shù)結(jié)合檢索后的結(jié)果,并根據(jù)用戶查找的內(nèi)容和知識的關(guān)注度,使用協(xié)同過濾算法進行推薦,推薦的結(jié)果更滿足用戶的需求。

        [1] 李永春,丁華福.Lucene的全文檢索的研究與應(yīng)用[J].計算機技術(shù)與發(fā)展,2010,20(2):12-15.

        [2] 鄭榕增,林世平.基于Lucene的中文倒排索引技術(shù)的研究[J].計算機技術(shù)與發(fā)展,2010,20(3):80-83.

        [3] 王歡,孫瑞志.基于領(lǐng)域本體和Lucene的語義檢索系統(tǒng)研究[J].計算機應(yīng)用,2010,30(6):1655-1657.

        [4] 高文舉,李曉偉,孫春燕,等.基于全文檢索Apache Lucene引擎的原理與流程研究[J].長春工業(yè)大學(xué)學(xué)報:自然科學(xué)版,2008,29(4):424-427.

        [5] 張俊,李魯群,周熔.基于Lucene的搜索引擎的研究與應(yīng)用[J].計算機技術(shù)與發(fā)展,2013,23(6):230-232.

        [6] 義天鵬,陳啟安.基于Lucene的中文分析器分詞性能比較研究[J].計算機工程,2012,38(22):279-282.

        [7] Zhao X,Niu Z,Chen W. Opinion-based collaborative filtering to solve popularity bias in recommender systems[C]//International Conference on Database and Expert Systems Applications. Springer Berlin Heidelberg,2013:426-433.

        [8] Yoshida T,Irie G,Satou T,et al. Improving item recommendation based on social tag ranking[C]//International Conference on Multimedia Modeling. Berlin:Springer Berlin Heidelberg,2012:161-172.

        [9] 孫光福,吳樂,劉淇,等.基于時序行為的協(xié)同過濾推薦算法[J].軟件學(xué)報,2013,24(11):2721-2733.

        [10] 劉青文.基于協(xié)同過濾的推薦算法研究[D].合肥:中國科技大學(xué),2013.

        Knowledge push based on Lucene and collaborative filtering algorithm

        XIAO Wei,TANG Dongkai,SUN Jingqi,LIU Zehao

        (School of Computer Science & Engineering,Changchun University of Technology,Changchun 130012,China)

        Combing Luceneindexing with IKAnalyzer and Tika,intelligent document retrieval and classification is realized. The document keyword weight is setaccording to the classification. The higher the user attention degree,the greater the weight of the keywords. With the collaborative filtering algorithm,the knowledge with more attention will be pushed forward.

        Lucene; IKAnalyzer; Tika; collaborative filtering algorithm.

        2016-06-20

        國家自然科學(xué)基金資助項目(61303132)

        肖 巍(1980-),女,漢族,吉林長春人,長春工業(yè)大學(xué)講師,碩士,主要從事數(shù)據(jù)挖掘與人工智能方向研究,E-mail:xiaowei@ccut.edu.cn.

        10.15923/j.cnki.cn22-1382/t.2016.5.18

        TP 316

        A

        1674-1374(2016)05-0503-04

        猜你喜歡
        文本用戶
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        Camera360:拍出5億用戶
        100萬用戶
        97色偷偷色噜噜狠狠爱网站| 无码熟妇人妻AV不卡| 亚洲一区二区三区美女av| 中文字幕亚洲入口久久| 成人网站在线进入爽爽爽| 四川老熟女下面又黑又肥 | 久久精品国产久精国产爱| 伊人久久大香线蕉av一区| 欧美一级人与嘼视频免费播放| 91亚洲国产成人久久精品网站| 日本人妻免费一区二区三区| 色偷偷偷久久伊人大杳蕉| 丁香综合网| 在线免费观看亚洲毛片| 国内自拍愉拍免费观看| 国产精品福利自产拍在线观看| 久久国产亚洲高清观看5388| 国产精品久久久看三级| 亚洲a无码综合a国产av中文| 97伦伦午夜电影理伦片| 免青青草免费观看视频在线| 97久久综合精品国产丝袜长腿 | 日日噜噜夜夜狠狠久久丁香五月 | 被灌醉的日本人妻中文字幕| 精品国产av色一区二区深夜久久 | 欧美日韩中文制服有码| 亚欧免费无码AⅤ在线观看| 中文字幕亚洲精品在线| 99视频30精品视频在线观看| 图图国产亚洲综合网站| 精品一区二区三区老熟女少妇| 新婚人妻不戴套国产精品| 男人边吃奶边做好爽免费视频| 精品免费久久久久国产一区| 成熟妇女毛茸茸性视频| 日本黄网站三级三级三级| 无码国产精品一区二区免费网曝| 国产在线观看黄片视频免费| 国模冰莲自慰肥美胞极品人体图| 富婆如狼似虎找黑人老外| 一区二区三区在线蜜桃|