亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用Apache Mahout改善圖書(shū)館OPAC系統(tǒng)在大數(shù)據(jù)環(huán)境中用戶體驗(yàn)的實(shí)踐

        2015-05-10 08:41:14強(qiáng)
        圖書(shū)館研究 2015年3期
        關(guān)鍵詞:個(gè)性化圖書(shū)電商

        周 強(qiáng)

        (深圳圖書(shū)館,廣東 深圳 518036)

        1 傳統(tǒng)OPAC在大數(shù)據(jù)環(huán)境中面臨的困境

        傳統(tǒng)的OPAC是隨著20世紀(jì)80年代開(kāi)始的圖書(shū)館自動(dòng)化系統(tǒng)一同出現(xiàn)的,基于當(dāng)時(shí)的技術(shù)條件和圖書(shū)館不多的館藏資源,一般是瀏覽式展示和根據(jù)用戶輸入檢索詞獲得檢索結(jié)果,相對(duì)于之前的卡片查詢,OPAC極大地方便了讀者。但隨著社會(huì)的發(fā)展,圖書(shū)館館藏資源數(shù)量爆發(fā)式增長(zhǎng),讀者閱讀需求個(gè)性化、多元化越來(lái)越明顯,傳統(tǒng)OPAC面對(duì)越來(lái)越多的困境:

        (1)由于圖書(shū)館館藏量的快速增加,OPAC往往展示給讀者幾十甚至是幾百條記錄,大量的檢索結(jié)果對(duì)讀者獲取想要的信息并沒(méi)有多大幫助;更糟糕的是大量的檢索結(jié)果按照書(shū)名的拼音順序或者出版時(shí)間排序,讀者只有一頁(yè)一頁(yè)瀏覽,才能發(fā)現(xiàn)所要查找的文獻(xiàn)。這無(wú)意中為用戶利用OPAC獲取信息資源設(shè)置了障礙,影響了用戶使用的便利性和實(shí)效性[1]。

        (2)OPAC個(gè)性化服務(wù)程度不高,智能化服務(wù)內(nèi)容不多。讀者需要填寫(xiě)檢索詞,才能利用OPAC檢索系統(tǒng),但讀者很多時(shí)候并不明確知道自己想看什么,只想找到自己感興趣的書(shū)。目前的OPAC并不能全面客觀地分析讀者的信息需求,對(duì)各種信息資源進(jìn)行過(guò)濾,把用戶所需要的信息資源提供給用戶[2]。

        傳統(tǒng)的OPAC已經(jīng)無(wú)法滿足讀者越來(lái)越高的要求,如何走出困境,提高服務(wù)質(zhì)量,更好地為讀者提供服務(wù),成了圖書(shū)館界亟需解決的一個(gè)問(wèn)題?;ヂ?lián)網(wǎng)電商從誕生之日就面臨海量的商品信息與用戶,其個(gè)性化推薦服務(wù)可被圖書(shū)館借鑒,進(jìn)而有助于解決這個(gè)問(wèn)題。

        2 個(gè)性化推薦系統(tǒng)在圖書(shū)類電商中的應(yīng)用

        什么是個(gè)性化推薦系統(tǒng)?簡(jiǎn)單地說(shuō),個(gè)性化推薦能幫助網(wǎng)站根據(jù)用戶的歷史行為(如搜索、瀏覽、評(píng)論和購(gòu)買(mǎi)等),推測(cè)出用戶可能感興趣的內(nèi)容并向其推薦[3]。推薦系統(tǒng)為客戶推薦商品,自動(dòng)完成個(gè)性化選擇商品的過(guò)程,滿足客戶的個(gè)性化需求,避免顧客因信息過(guò)載問(wèn)題而瀏覽大量無(wú)關(guān)的信息和產(chǎn)品,花費(fèi)大量時(shí)間才能找到自己需要的商品

        目前,個(gè)性化推薦系統(tǒng)在電子商務(wù)網(wǎng)站運(yùn)用非常普遍,已經(jīng)逐漸成為一種標(biāo)準(zhǔn)配置。它是建立在大數(shù)據(jù)基礎(chǔ)上的一種高級(jí)商務(wù)智能平臺(tái),幫助電子商務(wù)網(wǎng)站為其顧客提供完全個(gè)性化的決策支持和信息服務(wù)。有研究表明,使用個(gè)性化推薦能幫助電商網(wǎng)站提高2%~8%的銷售額。圖書(shū)類電商網(wǎng)站也順應(yīng)了這一潮流,紛紛設(shè)置了個(gè)性化推薦的相關(guān)板塊。據(jù)VentureBeat統(tǒng)計(jì),個(gè)性化推薦系統(tǒng)的使用為亞馬遜提供了35%的銷售額。

        在電商系統(tǒng)中,與圖書(shū)館OPAC最相近的是圖書(shū)類電商,可以通過(guò)分析圖書(shū)類電商在個(gè)性化推薦應(yīng)用方面的特點(diǎn)和優(yōu)勢(shì),發(fā)現(xiàn)解決傳統(tǒng)OPAC現(xiàn)存問(wèn)題的途徑和方案。

        目前,圖書(shū)類電商通常將個(gè)性化服務(wù)細(xì)分為多種推薦小板塊。這些板塊從實(shí)現(xiàn)途徑分為3類:①基于用戶的共同興趣的推薦板塊。這類板塊主要通過(guò)相同的歷史行為推斷用戶存在共同興趣,向用戶推薦與之有相同興趣用戶的瀏覽、閱讀或購(gòu)買(mǎi)行為。如當(dāng)當(dāng)網(wǎng)的“閱讀此書(shū)的人喜歡的其他圖書(shū)”。實(shí)現(xiàn)這一類推薦需要記錄用戶的歷史行為數(shù)據(jù),不需要對(duì)圖書(shū)進(jìn)行分類。②基于用戶自身歷史行為推測(cè)用戶的興趣點(diǎn)的推薦板塊。這類板塊通常根據(jù)用戶搜索、瀏覽、購(gòu)買(mǎi)圖書(shū)的行為來(lái)推測(cè)其興趣,從而向其推薦可能感興趣的同類圖書(shū),是目前最流行和最精確的推薦方式。如亞馬遜的“您可能還喜歡”。實(shí)現(xiàn)這類推薦需要用戶的歷史行為數(shù)據(jù)和對(duì)商品進(jìn)行精細(xì)分類。③社會(huì)化推薦板塊。這類板塊是使用戶通過(guò)自己的社交關(guān)系來(lái)獲得推薦。如豆瓣閱讀的“友鄰廣播”,似于現(xiàn)實(shí)生活中一個(gè)朋友給其他朋友進(jìn)行推薦。

        3 開(kāi)源個(gè)性化推薦系統(tǒng)Apache Mahout

        個(gè)性化推薦系統(tǒng)實(shí)施涉及很多算法以實(shí)現(xiàn)用戶的聚類、商品的聚類及分類,是一個(gè)相當(dāng)復(fù)雜的過(guò)程。筆者查找和比較了Apache Mahout、Weka、JDM等開(kāi)發(fā)包,相比之下使用Mahout較易實(shí)現(xiàn)推薦功能。

        Apache Mahout是Apache Software Foundation(ASF)開(kāi)發(fā)的一個(gè)全新的開(kāi)源項(xiàng)目,其主要目標(biāo)是創(chuàng)建一些可伸縮的機(jī)器學(xué)習(xí)算法,供開(kāi)發(fā)人員在Apache許可下免費(fèi)使用。Mahout提供大量功能實(shí)現(xiàn),包括聚類、集群、分類、協(xié)同過(guò)濾和進(jìn)化程序等數(shù)據(jù)挖掘算法。通過(guò)使用 Apache Hadoop庫(kù),Mahout可以有效地?cái)U(kuò)展到云中[4]。

        Mahout項(xiàng)目是由 Apache Lucene(開(kāi)源搜索)社區(qū)中對(duì)機(jī)器學(xué)習(xí)感興趣的一些成員發(fā)起的,他們希望建立一個(gè)可靠、文檔翔實(shí)、可伸縮的項(xiàng)目,在其中實(shí)現(xiàn)一些常見(jiàn)的用于集群和分類的機(jī)器學(xué)習(xí)算法。得益于Mahout已經(jīng)實(shí)現(xiàn)的算法,筆者直接利用這些算法以快速實(shí)現(xiàn)OPAC推薦系統(tǒng)。

        4 使用Apache Mahout實(shí)現(xiàn)個(gè)性化推薦系統(tǒng)的步驟

        筆者詳細(xì)介紹利用Apache Mahout實(shí)現(xiàn)一個(gè)實(shí)驗(yàn)性的個(gè)性化推薦系統(tǒng)的實(shí)施步驟,該實(shí)驗(yàn)系統(tǒng)的目標(biāo)是:以深圳科圖公司的產(chǎn)品ILASII作為數(shù)據(jù)源,實(shí)現(xiàn)推薦功能,尋找讀者可能感興趣的圖書(shū),并展示給讀者。該系統(tǒng)的實(shí)施包括兩個(gè)基本部分:數(shù)據(jù)集和算法。

        4.1 獲得數(shù)據(jù)集,并進(jìn)行數(shù)據(jù)預(yù)處理

        在數(shù)據(jù)挖掘中,獲得數(shù)據(jù)集,并進(jìn)行數(shù)據(jù)預(yù)處理,是將不同來(lái)源的數(shù)據(jù)集成、合并數(shù)據(jù)到單一的數(shù)據(jù)倉(cāng)庫(kù),并協(xié)調(diào)來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)在數(shù)值上的差異,使數(shù)據(jù)屬性標(biāo)準(zhǔn)化。同時(shí),還要去除重復(fù)數(shù)據(jù),并確保格式轉(zhuǎn)換為分析模塊所需要的格式。

        ILASII于1998年發(fā)布,現(xiàn)在仍有大量圖書(shū)館使用該系統(tǒng)。該系統(tǒng)中沒(méi)有讀者的圖書(shū)評(píng)分功能,可以采用讀者借閱歷史作為讀者的喜好數(shù)據(jù),將讀者借閱歷史作為推薦系統(tǒng)的數(shù)據(jù)集。

        從ILASII系統(tǒng)中可以導(dǎo)出的借閱歷史格式是:讀者記錄號(hào)、圖書(shū)條碼號(hào)。圖書(shū)條碼對(duì)應(yīng)的是一冊(cè)圖書(shū),但推薦系統(tǒng)需要推薦給讀者的是該條碼對(duì)應(yīng)的圖書(shū),而不只是這一冊(cè)圖書(shū)。筆者在ILASII中導(dǎo)出的借閱歷史的圖書(shū)條碼號(hào)轉(zhuǎn)換為圖書(shū)書(shū)目記錄號(hào),同時(shí)將數(shù)據(jù)保存為如下格式的文本文件:讀者記錄號(hào),圖書(shū)記錄號(hào),1(Mahout要求文件的內(nèi)容滿足以下格式:每一行包括用戶 ID,物品 ID,用戶偏好值;每行中間用逗號(hào)或Tab隔開(kāi))

        每一行表示這個(gè)讀者借閱過(guò)圖書(shū)記錄號(hào)對(duì)應(yīng)的圖書(shū)。這里需要注意,基于存儲(chǔ)效率和計(jì)算效率方面的考慮,Mahout要求每一個(gè)欄位都是數(shù)字,不能包含字母。如果自動(dòng)化系統(tǒng)輸出的借閱歷史中包含字母,需要在預(yù)處理階段把字母轉(zhuǎn)化為數(shù)字。

        表1是筆者經(jīng)過(guò)預(yù)處理后的讀者借閱歷史文件loans.csv部分?jǐn)?shù)據(jù):

        表1讀者借閱歷史樣本

        4.2 核心程序編制

        對(duì)取得的數(shù)據(jù)集進(jìn)行算法分析,從借閱歷史尋找具有相似閱讀歷史的讀者,從所有相似讀者的閱讀書(shū)目集合中按照權(quán)重順序(圖書(shū)被相似讀者借閱次數(shù)越多,其權(quán)重越高)推薦給該讀者。

        Apache Mahout對(duì)如何尋找相似讀者和相似圖書(shū)提供了很多算法,提供了多種基于協(xié)同過(guò)濾的推薦策略,這里選擇其中經(jīng)典的兩種:User CF和Item CF。簡(jiǎn)單地說(shuō)就是基于用戶相似度的推薦和基于物品相似度的推薦,分別可以實(shí)現(xiàn)相同興趣用戶間的推薦和個(gè)人用戶可能感興趣的推薦。

        下面列出了使用Apache Mahout對(duì)經(jīng)過(guò)數(shù)據(jù)預(yù)處理的借閱歷史進(jìn)行分析,并用實(shí)現(xiàn)基于Item CF的推薦系統(tǒng):

        DataModel model=new GenericBooleanPrefDataModel(new FileDataModel(new File("loans.csv")));

        UserSimilarity similarity=new PearsonCorrelationSimilarity(model);

        UserNeighborhood neighborhood=new NearestNUserNeighborhood(100,similarity,model);

        Recommender recommender=new GenericUserBasedRecommender(model,neighborhood,similarity);

        這四句代碼的功能依次是:從數(shù)據(jù)文件loans.csv構(gòu)建一個(gè)Boolean型的偏好數(shù)據(jù)模型,計(jì)算所有讀者的相似度,計(jì)算N-近鄰,最后依據(jù)該相似度和N-近鄰構(gòu)造出推薦器。再用如下代碼就可以獲得記錄號(hào)為9501160的讀者可能喜歡的圖書(shū)記錄號(hào):

        List〈RecommendedItem〉 recommendations=recommender.recommend(9501160,20);

        遍歷變量recommendations就可以獲得推薦系統(tǒng)推薦給該讀者的圖書(shū),如:

        for(RecommendedItem recommendation:recommendations){System.out.println(recommendation);}

        得到如下輸出:

        RecommendedItem[item:27315,value:1.0]

        RecommendedItem[item:27945,value:1.0]

        RecommendedItem[item:29288,value:1.0]

        RecommendedItem[item:13554,value:1.0]

        RecommendedItem[item:27952,value:1.0]

        RecommendedItem[item:22768,value:1.0]

        RecommendedItem[item:19203,value:1.0]

        這里item就是推薦系統(tǒng)推薦給讀者9501160的圖書(shū)的書(shū)目記錄號(hào)。

        把上面的UserSimilarity similarity=new PearsonCorrelationSimilarity(model)改為:ItemSimilarity similarity=new PearsonCorrelationSimilarity(model),就可以實(shí)現(xiàn)基于Item CF的推薦系統(tǒng)。

        4.3 輔助程序

        有了獲取推薦數(shù)據(jù)的核心代碼,剩下的工作就相對(duì)簡(jiǎn)單,只需要把推薦的RecommendedItem轉(zhuǎn)換成用戶可以看得懂的信息就可以了。參照豆瓣的“豆瓣猜”,可以在圖書(shū)館網(wǎng)站增加一個(gè)“圖書(shū)推薦”,實(shí)現(xiàn)效果如圖1所示。

        圖1圖書(shū)推薦展示效果圖

        這個(gè)功能可以建設(shè)為一個(gè)獨(dú)立系統(tǒng),與原有自動(dòng)化系統(tǒng)提供的OPAC前端做頁(yè)面整合??梢钥吹?,這個(gè)方案只要具有一定java和javascript開(kāi)發(fā)能力就可以輕松實(shí)施。

        5 結(jié)束語(yǔ)

        個(gè)性化推薦是一種以用戶需求為中心的服務(wù),可極大提高圖書(shū)館的服務(wù)質(zhì)量和資源的有效利用,必將成為圖書(shū)館新型服務(wù)模式的主流,是圖書(shū)館在大數(shù)據(jù)環(huán)境中的必然選擇。

        目前,個(gè)性化推薦系統(tǒng)在圖書(shū)館中的應(yīng)用還不十分普及,使用Apache Mahout快速搭建圖書(shū)館個(gè)性化推薦系統(tǒng)的實(shí)驗(yàn)性系統(tǒng),是筆者對(duì)個(gè)性化推薦系統(tǒng)的一種實(shí)操性探索。事實(shí)上,可以利用圖書(shū)館很多方面的數(shù)據(jù)資源,為讀者提供個(gè)性化推薦服務(wù)。如利用網(wǎng)站日志文件和記錄文件,分析用戶偏好度和網(wǎng)頁(yè)關(guān)聯(lián)性[5];利用讀者借還、下載、查詢、罰款等數(shù)據(jù)分析讀者的信譽(yù)度,以便提供不同的服務(wù)策略等[6]。如何對(duì)圖書(shū)館各類資源數(shù)據(jù)合理利用,更方便快捷建立有效的個(gè)性化推薦系統(tǒng),需要圖書(shū)館界繼續(xù)探索。

        [1]肖倩,董占山,張聰.圖書(shū)類電子商務(wù)網(wǎng)站上的個(gè)性化推薦應(yīng)用研究[J].科技與出版,2014(8):94-97.

        [2]何靜,高靜萍.國(guó)內(nèi)外圖書(shū)館網(wǎng)站建設(shè)研究綜述[J].江西圖書(shū)館學(xué)刊,2008(3):27-28.

        [3]查大元.個(gè)性化推薦系統(tǒng)的研究和實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2011(1):48.

        [4]蔡建新,徐迪威.基于云計(jì)算平臺(tái)的海量數(shù)據(jù)挖掘技術(shù)在塑料電子商務(wù)平臺(tái)中的應(yīng)用[J].廣東科技,2011(8):59.

        [5]蔡琬琰.基于數(shù)據(jù)挖掘的高校圖書(shū)館網(wǎng)站個(gè)性化推薦系統(tǒng)[J].情報(bào)探索,2011(3):88.

        [6]唐秋鴻,曹紅兵,唐小新,等.基于Web挖掘的圖書(shū)館個(gè)性化服務(wù)系統(tǒng)研究[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2012(2):185-186.

        猜你喜歡
        個(gè)性化圖書(shū)電商
        電商助力“種得好”也“賣(mài)得火”
        圖書(shū)推薦
        南風(fēng)(2020年22期)2020-09-15 07:47:08
        堅(jiān)持個(gè)性化的寫(xiě)作
        文苑(2020年4期)2020-05-30 12:35:12
        歡迎來(lái)到圖書(shū)借閱角
        新聞的個(gè)性化寫(xiě)作
        新聞傳播(2018年12期)2018-09-19 06:27:10
        電商鄙視鏈中的拼多多
        班里有個(gè)圖書(shū)角
        上汽大通:C2B個(gè)性化定制未來(lái)
        電商下鄉(xiāng)潮
        滿足群眾的個(gè)性化需求
        国产乱人伦偷精品视频| 中文字幕av人妻少妇一区二区| 无遮挡1000部拍拍拍免费| 亚洲伊人色欲综合网| 四虎精品成人免费观看| 亚洲国产av剧一区二区三区| 国产交换精品一区二区三区| 亚洲av成人片色在线观看高潮| 国产精品人妻一区夜夜爱| 国产v精品成人免费视频400条| 亚洲一区二区三区精品久久av| 强开小婷嫩苞又嫩又紧视频| 精品亚洲成a人7777在线观看| 国产一级淫片免费播放电影| 免费人成黄页在线观看国产| 国产精品高清网站| 国产亚洲精品久久久久婷婷瑜伽 | 国产乱人伦偷精品视频免观看 | 久久久精品国产亚洲麻色欲| 日韩一区二区三区熟女| 亚洲国产精品无码专区在线观看| 欧美午夜一区二区福利视频| 无码三级国产三级在线电影| 亚洲国产女性内射第一区二区| 夜夜添夜夜添夜夜摸夜夜摸| 成人免费xxxxx在线视频| 二区三区视频在线观看| 色呦呦九九七七国产精品| 亚洲国产精品福利片在线观看| 中文字幕无码日韩欧毛| av国产免费在线播放| 四虎成人精品国产永久免费无码| 97人人超碰国产精品最新o| 久久久亚洲精品免费视频| 亚洲不卡高清av网站| 成人爽a毛片在线视频| 亚洲国产成人手机在线电影| 粉色蜜桃视频完整版免费观看在线| 风流老太婆大bbwbbwhd视频| 亚洲欧美国产双大乳头| 亚洲国产一区二区三区视频在线|