亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于組合模型的農(nóng)業(yè)信息情景感知推薦系統(tǒng)研究

        2017-11-15 11:13:20李慧閆琰
        江蘇農(nóng)業(yè)科學(xué) 2017年17期
        關(guān)鍵詞:推薦系統(tǒng)

        李慧+閆琰

        摘要:在大數(shù)據(jù)環(huán)境下,農(nóng)戶在互聯(lián)網(wǎng)中獲取指導(dǎo)農(nóng)業(yè)生產(chǎn)的信息更加困難,隨著“一帶一路”國(guó)家發(fā)展戰(zhàn)略的全面展開(kāi),廣大農(nóng)民對(duì)農(nóng)業(yè)信息服務(wù)的需求有增無(wú)減。針對(duì)傳統(tǒng)推薦系統(tǒng)不能反映用戶興趣遷移、推薦精度不高等問(wèn)題,提出來(lái)基于組合模型的農(nóng)業(yè)信息推薦系統(tǒng),提高農(nóng)業(yè)信息推薦的自適應(yīng)性和準(zhǔn)確性。系統(tǒng)結(jié)合云計(jì)算技術(shù)提出一種基于Hadoop+Nutch的全網(wǎng)農(nóng)業(yè)信息數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建方法,通過(guò)納入時(shí)間權(quán)重、情景變更和興趣遷移的優(yōu)化向量空間模型構(gòu)建了自適應(yīng)性的用戶興趣模型,以及借助組合神經(jīng)網(wǎng)絡(luò)提高推薦精度提出了組合推薦算法。最后通過(guò)評(píng)價(jià)召回率、準(zhǔn)確率等指標(biāo)表明,基于組合模型的推薦系統(tǒng)可大幅提高推薦準(zhǔn)確性和魯棒性。

        關(guān)鍵詞:農(nóng)業(yè)信息大數(shù)據(jù);推薦系統(tǒng);自適應(yīng)興趣模型;組合推薦算法

        中圖分類號(hào): C931.6;S126文獻(xiàn)標(biāo)志碼: A文章編號(hào):1002-1302(2017)17-0209-06

        通信作者:閆琰,博士,主要從事農(nóng)業(yè)經(jīng)濟(jì)理論與政策研究。E-mail:yanyannewgirl@163.com。隨著全球農(nóng)業(yè)市場(chǎng)化、國(guó)際化進(jìn)程加快,農(nóng)業(yè)信息市場(chǎng)流通環(huán)節(jié)增多、信息海量且分散凌亂,農(nóng)業(yè)信息更多以非結(jié)構(gòu)化數(shù)據(jù)的形式出現(xiàn)。海量的農(nóng)業(yè)信息呈現(xiàn)出大數(shù)據(jù)的特征:數(shù)據(jù)量大(volume)、處理速度快(velocity)、數(shù)據(jù)類型多(variety)、價(jià)值大(value)、精確性高(veracity)[1]。目前,我國(guó)已建成的農(nóng)業(yè)類網(wǎng)站超過(guò)4萬(wàn)個(gè),2015年中央一號(hào)文件更是強(qiáng)調(diào)要“支持電商、物流、商貿(mào)、金融等企業(yè)參與涉農(nóng)電子商務(wù)平臺(tái)建設(shè)”。然而我國(guó)當(dāng)前農(nóng)業(yè)信息服務(wù)開(kāi)展的困境是農(nóng)戶很難在農(nóng)業(yè)信息大數(shù)據(jù)中獲取需要的信息。因此,亟需可以對(duì)農(nóng)業(yè)大數(shù)據(jù)進(jìn)行整合分類后根據(jù)農(nóng)戶興趣進(jìn)行推薦的信息服務(wù)體系,以解決農(nóng)民信息技術(shù)能力有限和大數(shù)據(jù)之間的矛盾。但是我國(guó)農(nóng)村地域廣闊、農(nóng)業(yè)信息時(shí)效性敏感、農(nóng)業(yè)信息分類繁雜,農(nóng)戶興趣隨著時(shí)間和情景的改變也會(huì)遷移,因此傳統(tǒng)的推薦系統(tǒng)已經(jīng)不能滿足農(nóng)戶對(duì)海量農(nóng)業(yè)信息的特殊需求。本研究針對(duì)上述問(wèn)題,首先通過(guò)云計(jì)算技術(shù)構(gòu)建了基于Hadoop+Nutch的全網(wǎng)農(nóng)業(yè)信息整合和分類數(shù)據(jù)倉(cāng)庫(kù)[2],充分考慮時(shí)間權(quán)重、情景變更和興趣遷移等因素后,優(yōu)化向量空間模型,構(gòu)建了自適應(yīng)性的用戶興趣模型,最后提出了1種借助組合神經(jīng)網(wǎng)絡(luò)提高推薦精度的組合推薦算法,并通過(guò)召回率和準(zhǔn)確率評(píng)價(jià)了系統(tǒng)推薦性能。

        1基于組合模型的農(nóng)業(yè)信息情景感知推薦系統(tǒng)設(shè)計(jì)

        基于組合模型的農(nóng)業(yè)信息推薦系統(tǒng)由4個(gè)子系統(tǒng)構(gòu)成:全網(wǎng)農(nóng)業(yè)信息整合和分類子系統(tǒng)、情景自適應(yīng)實(shí)時(shí)用戶興趣模型、組合神經(jīng)網(wǎng)絡(luò)推薦優(yōu)化子系統(tǒng)以及推薦內(nèi)容可視化子系統(tǒng)。首先,系統(tǒng)通過(guò)全網(wǎng)農(nóng)業(yè)信息整合和分類子系統(tǒng)獲取全網(wǎng)農(nóng)業(yè)信息并對(duì)海量的數(shù)據(jù)進(jìn)行整合和分類,通過(guò)特征提取技術(shù)建立特征索引,然后通過(guò)自適應(yīng)用戶興趣模型子系統(tǒng)對(duì)用戶的興趣進(jìn)行建模,再通過(guò)組合神經(jīng)網(wǎng)絡(luò)推薦優(yōu)化子系統(tǒng)將用戶感興趣的內(nèi)容進(jìn)行個(gè)性化推薦,同時(shí)根據(jù)用戶反饋訓(xùn)練神經(jīng)網(wǎng)絡(luò)以提高系統(tǒng)推薦的準(zhǔn)確性,最后將推薦的內(nèi)容在推薦內(nèi)容可視化子系統(tǒng)友好地展示給用戶。本系統(tǒng)的優(yōu)點(diǎn)在于不僅能為目標(biāo)農(nóng)戶提供檢索信息的功能,同時(shí)可以將與其檢索內(nèi)容相關(guān)的內(nèi)容一并推送給目標(biāo)農(nóng)戶。農(nóng)戶提交請(qǐng)求后,系統(tǒng)將輸入轉(zhuǎn)化成特征向量,通過(guò)特征的權(quán)重連接輸出和輸入。系統(tǒng)通過(guò)組合推薦算法將最終輸出計(jì)算值大于預(yù)設(shè)閾值的頁(yè)面推送給目標(biāo)農(nóng)戶。系統(tǒng)技術(shù)路線見(jiàn)圖1。

        1.1全網(wǎng)農(nóng)業(yè)信息整合和分類子系統(tǒng)

        全網(wǎng)農(nóng)業(yè)信息整合和分類子系統(tǒng)的主要作用是為整個(gè)體系提供信息源,通過(guò)整合和分類為推薦服務(wù)奠定基礎(chǔ)。面對(duì)數(shù)量龐大,數(shù)據(jù)結(jié)構(gòu)多元化的全網(wǎng)農(nóng)業(yè)信息,全網(wǎng)農(nóng)業(yè)信息整合和分類子系統(tǒng)采用分布式搜索引擎Nutch完成對(duì)繁雜信息的聚合,依托云計(jì)算平臺(tái)Hadoop完成對(duì)海量數(shù)據(jù)的存儲(chǔ)與處理[3]。

        1.1.1分布式農(nóng)業(yè)信息獲取對(duì)農(nóng)業(yè)大數(shù)據(jù)進(jìn)行聚合檢索采用分布式搜索引擎的開(kāi)源搜索引擎Nutch的優(yōu)點(diǎn)是利用其開(kāi)源性,可查看并改進(jìn)其源代碼,有利于在此基礎(chǔ)上進(jìn)行系統(tǒng)二次開(kāi)發(fā)和整合。具體的實(shí)現(xiàn)過(guò)程如下:首先,對(duì)當(dāng)前有代表性的農(nóng)業(yè)權(quán)威網(wǎng)站(如收購(gòu)商類、政府官方農(nóng)業(yè)信息類網(wǎng)站以及農(nóng)業(yè)技術(shù)類網(wǎng)站等)進(jìn)行歸納整理,生成1個(gè)源URL文件作為開(kāi)啟搜索任務(wù)的種子。然后,將Nutch搜索引擎分布式地部署到Hadoop云計(jì)算架構(gòu)中,啟動(dòng)各個(gè)節(jié)點(diǎn)虛擬機(jī)的Nutch進(jìn)程開(kāi)啟分布式農(nóng)業(yè)信息抓取任務(wù)。同時(shí),對(duì)獲取的農(nóng)業(yè)信息進(jìn)行結(jié)構(gòu)化分析,分類獲取HTML源里的有用信息。最后根據(jù)各個(gè)頁(yè)面按照主題和關(guān)鍵詞聚類,創(chuàng)建時(shí)空邏輯關(guān)聯(lián),通過(guò)HDFS分布式存儲(chǔ)建立農(nóng)業(yè)信息分類數(shù)據(jù)倉(cāng)庫(kù)。

        1.1.2農(nóng)業(yè)歸檔信息預(yù)處理與特征提取對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的農(nóng)業(yè)信息網(wǎng)頁(yè)需要進(jìn)行預(yù)處理和特征提取,以構(gòu)建結(jié)構(gòu)化數(shù)據(jù)。該部分主要工作有過(guò)濾重復(fù)鏈接、HTML解析、中文分

        詞+過(guò)濾停用詞+詞性標(biāo)注、基于Text Rank算法構(gòu)建關(guān)鍵詞圖、通過(guò)轉(zhuǎn)移概率矩陣確定詞權(quán)、按照詞權(quán)排序并生成關(guān)鍵詞序列。

        1.1.2.1過(guò)濾掉重復(fù)鏈接該步驟的目的是為了清除抓取頁(yè)面的外鏈和鏡像,其作用是確保每個(gè)網(wǎng)頁(yè)源只有一個(gè),將重復(fù)的連接刪除以減少系統(tǒng)資源的消耗。

        1.1.2.2HTML解析為了獲取抓取網(wǎng)頁(yè)鏈接地址、title、content等網(wǎng)頁(yè)詳細(xì)信息,系統(tǒng)采用HTML解析模塊來(lái)實(shí)現(xiàn)上述功能,為對(duì)文本特征提取準(zhǔn)備源數(shù)據(jù),在系統(tǒng)中具體是通過(guò)改寫并調(diào)用HTMLparser類來(lái)實(shí)現(xiàn)HTML內(nèi)容解析工作。

        1.1.2.3中文分詞通過(guò)對(duì)比各個(gè)中文分詞軟件的特點(diǎn)后,本系統(tǒng)采用中國(guó)科學(xué)院開(kāi)發(fā)的ICTCLAS中文分詞系統(tǒng),該系統(tǒng)是基于隱馬爾科夫模型算法開(kāi)發(fā)而來(lái),具有很強(qiáng)的中文識(shí)別區(qū)分能力。在分詞的同時(shí),需要過(guò)濾停用詞和詞性標(biāo)注。將HTML轉(zhuǎn)化為文本(記為txt)之后,將文本txt作為輸入,按照標(biāo)點(diǎn)將txt劃分為不同的語(yǔ)句Seni,即txt={Sen1,Sen2,…,Senn},最后對(duì)每一個(gè)語(yǔ)句Seni,進(jìn)行中文分詞+過(guò)濾停用詞+詞性標(biāo)注得到詞語(yǔ)Wodi,j集合,即Seni={Wodi,1,Wodi,2,…,Wodi,m}。endprint

        1.1.2.4基于Text Rank算法[4]構(gòu)建關(guān)鍵詞圖將Seni={Wodi,1,Wodi,2,…,Wodi,m}作為候選關(guān)鍵詞集,并建立候選關(guān)鍵詞圖G=(V,E),V是由Wodi,j組成的節(jié)點(diǎn)集合,EV×V,通過(guò)共現(xiàn)關(guān)系構(gòu)造兩點(diǎn)之間的邊。給定權(quán)重指數(shù)wij代表 G=(V,E)中的結(jié)點(diǎn)vi指向結(jié)點(diǎn)vj的權(quán)重。vi∈V,用IS(vi)表示所有指向點(diǎn)vi的點(diǎn)集,用OS(vi)代表所有vi所指向的點(diǎn)集。可通過(guò)如下公式計(jì)算vi的分值S(vi)[5]:

        S(vi)=(1-d)+d×∑vi∈IS(vi)wji∑vk∈OS(vk)wjkS(vj)。

        式中:d為[0,1]之間的阻尼系數(shù)(常取0.85),表示從G特定點(diǎn)v指向其他任意點(diǎn)的概率。

        關(guān)鍵詞圖中用點(diǎn)與點(diǎn)之間的線段長(zhǎng)度代表轉(zhuǎn)移概率,用結(jié)點(diǎn)v到指向的結(jié)點(diǎn)vi的實(shí)線代表它們之間的轉(zhuǎn)移概率,用結(jié)點(diǎn)vi指向結(jié)點(diǎn)v的虛線代表vi跳轉(zhuǎn)至v的轉(zhuǎn)移概率。點(diǎn)與點(diǎn)之間轉(zhuǎn)移概率可以通過(guò)權(quán)重衡量,而權(quán)重與指向詞語(yǔ)v的詞語(yǔ)數(shù)量和其頻度有關(guān)。用wtc(vi,vj)代表vi的覆蓋影響力轉(zhuǎn)移到vj的權(quán)重,wtf(vi,vj)代表vi的頻度影響力轉(zhuǎn)移到vj的權(quán)重。令|V|=n,則所有詞的初始分值為S0={1n,1n,…,1n}。

        詞語(yǔ)之間的影響力轉(zhuǎn)移矩陣WT為

        WT=w11w12…w1n

        w21w22…w21

        wn1wn2…wnn。

        式中:權(quán)重wij代表第j個(gè)詞語(yǔ)的影響力轉(zhuǎn)移到第i個(gè)詞語(yǔ)的權(quán)重,其計(jì)算方式為

        wji=c×wtc(vi,vj)+f×wtf(vi,vj)。

        式中:c代表覆蓋影響力占整體影響力比重的權(quán)重,f表示頻度影響力占整體影響力的權(quán)重,c+f=1。

        再經(jīng)過(guò)迭代公式迭代至收斂時(shí)可得到所有詞語(yǔ)的分?jǐn)?shù),其中迭代公式為

        Si=d×WT×Si-1+(1-d)×S0。

        得到第i個(gè)網(wǎng)頁(yè)的特征向量:Pi=(Wodi,1,Resi,1>,,…,)。其中Resij表示詞語(yǔ)Wodi,j的最后得分。最后根據(jù)候選關(guān)鍵詞得分進(jìn)行降序排列,選取Top-N個(gè)詞語(yǔ)作為該網(wǎng)頁(yè)的特征向量。

        1.2情景自適應(yīng)實(shí)時(shí)用戶興趣模型子系統(tǒng)

        1.2.1向量空間模型本研究采用向量空間模型(vector space model,VSM)來(lái)表征用戶興趣,將用戶的特征項(xiàng)通過(guò)向量的方式來(lái)表征,其表征方式為Uvsm={(t1,w1),(t2,w2),…,(tn,wn)},其中ti為其中的一個(gè)特征項(xiàng),wi為該特征項(xiàng)的賦值權(quán)重。通過(guò)比較2個(gè)用戶特征向量可定量地衡量其相似度,通常較為簡(jiǎn)易高效的向量相似度量化方式是計(jì)算向量余弦?jiàn)A角[6],即:

        SM(Ui,Uj)=∑nk=1(Wk,Ui×Wk,Uj)∑nk=1w2k,Ui×∑nk=1w2k,Uj。

        式中:wk,Ui代表特征項(xiàng)tk占的權(quán)重。權(quán)重的確定可通過(guò) TF-IDF[7] 方式獲取也可以根據(jù)Text Rank算法獲取。

        1.2.2用戶興趣模型用戶的興趣可從3個(gè)層面獲取,分別是農(nóng)戶主動(dòng)提供的興趣關(guān)鍵詞信息(自定義標(biāo)簽興趣)、農(nóng)戶網(wǎng)頁(yè)瀏覽行為(瀏覽行為興趣)以及當(dāng)無(wú)法獲取任何用戶興趣信息時(shí)人工給定的興趣。其中農(nóng)戶主動(dòng)提供的關(guān)鍵詞可用于全網(wǎng)農(nóng)業(yè)信息數(shù)據(jù)倉(cāng)庫(kù)獲取階段,增強(qiáng)搜索的目的性與準(zhǔn)確性。

        用戶的瀏覽行為表現(xiàn)為點(diǎn)擊特定網(wǎng)頁(yè)的頻率、停留時(shí)間和特殊動(dòng)作(如打印、保存等),通過(guò)挖掘?yàn)g覽器端的瀏覽日志可以獲取用戶的瀏覽行為從而得出用戶興趣。用IT(p)表示用戶對(duì)網(wǎng)頁(yè)p的興趣程度,來(lái)量化用戶的瀏覽行為。其中,Save(p)為保存網(wǎng)頁(yè)p,Print(p)為打印網(wǎng)頁(yè)p,Click(p)為點(diǎn)擊網(wǎng)頁(yè)p,Stay(p)表示在網(wǎng)頁(yè)p的停留時(shí)間。

        功能函數(shù)F表示各個(gè)行為對(duì)瀏覽量化產(chǎn)生的影響,具體的:

        IT(p)=w1[Save(p)or Print(p)]+w2Click(p)maxa∈K{Click(a)}+w3Stay(p)/Size(p)maxa∈K{Stay(a)/Size(a)}。

        式中:w1為衡量保存和打印行為的權(quán)重,只要用戶發(fā)送打印或者保存行為則Save(p)or Print(p)=1,否則為0;w2為衡量用戶點(diǎn)擊行為的權(quán)重,用戶點(diǎn)擊行為表示為點(diǎn)擊網(wǎng)頁(yè)p的頻率占用戶點(diǎn)擊最多的網(wǎng)頁(yè)次數(shù)之比;w3為衡量用戶瀏覽時(shí)間的權(quán)重,用戶瀏覽網(wǎng)頁(yè)p的時(shí)間與網(wǎng)頁(yè)p大小之也存在一定關(guān)系。其中,3個(gè)權(quán)重通過(guò)熵值法來(lái)確定:首先,將用戶的每條瀏覽記錄中的3種行為(編號(hào)0,1,2)的次數(shù)表征成1個(gè)n×3 的矩陣R=(rijn×3),rij表示第i條件記錄中發(fā)生j種行為的次數(shù)。然后,通過(guò)rij′=max(rij-rij)maxi(rij)-mini(rij)對(duì)所有數(shù)值進(jìn)行標(biāo)準(zhǔn)化。接著,通過(guò)Hj=-1ln3∑irij′∑irij′ln(rij′∑irij′),j=1,2,3且rij′∑irij′=0時(shí)令rij′∑irij′ln(rij′∑irij′)=0,來(lái)計(jì)算各個(gè)行為的熵值。最后,通過(guò)wj=1-Hj3-∑iHj,j=1,2,3來(lái)確定各個(gè)權(quán)重。

        人工給定興趣時(shí),通過(guò)本系統(tǒng)默認(rèn)提供的主題信息有收購(gòu)商信息(包括超市、農(nóng)批市場(chǎng)、加工商等)、政策指導(dǎo)與行情預(yù)測(cè)信息、良種信息、種植信息等。為保證統(tǒng)計(jì)結(jié)果的客觀性,采用調(diào)研大量農(nóng)戶的選擇習(xí)慣,通過(guò)共現(xiàn)原則,挑選出一批有代表性的網(wǎng)頁(yè),通過(guò)農(nóng)業(yè)歸檔信息預(yù)處理與特征提取的方式進(jìn)行特征提取,作為默認(rèn)的用戶興趣模型。

        1.2.3實(shí)時(shí)情景自適應(yīng)用戶興趣模型用戶的興趣模型與用戶所處的情景息息相關(guān),通常影響用戶興趣遷移的情景有時(shí)間情景(如不同月份、季節(jié)與節(jié)氣)、地理情景(所處的不同行政區(qū)劃和省份)以及作物分類情景(如不同的作物品種)。時(shí)間情景可通過(guò)瀏覽日志的時(shí)間來(lái)確定,地理情景和作物分類情景可通過(guò)用戶的輸入確定(通過(guò)移動(dòng)端的定位功能可獲得準(zhǔn)確地理情景)[8]。

        綜合以上3種情景,對(duì)現(xiàn)有的用戶興趣模型進(jìn)行優(yōu)化。(1)時(shí)間優(yōu)化。隨著時(shí)間的推移,用戶對(duì)特定項(xiàng)目的興趣度會(huì)有衰退,因此,本研究將時(shí)間權(quán)重與遺忘因子引入用戶興趣中,將用戶興趣模型更新為IT(p)′=θ-log2h(Dp)θ-log2h(Ds)×IT(p)。其中Dp為用戶瀏覽網(wǎng)頁(yè)p的時(shí)間跨度,Ds為用戶使用推薦系統(tǒng)的時(shí)間跨度,K=e-log2h(t-T)為遺忘因子[9],h為遺忘半衰期(一般取7 d)。通過(guò)有用戶的瀏覽記錄,利用進(jìn)行時(shí)間優(yōu)化的IT(p)對(duì)用戶瀏覽歷史進(jìn)行排序,從中選取Top-m個(gè)網(wǎng)頁(yè),并進(jìn)行分詞和特征提取,通過(guò)wbj=∑mk=1IT(k)′SM(j,k)來(lái)衡量用戶對(duì)頁(yè)面k的基于瀏覽習(xí)慣的興趣度。(2)情景優(yōu)化。用戶的興趣與用戶所處的情景緊密相關(guān),農(nóng)戶的興趣也隨著不同的情景(如時(shí)間情景、地點(diǎn)情景、作物分類情景)而發(fā)生變化。用戶的興趣模型都應(yīng)與同期特定的情景信息一起存檔,構(gòu)建情景-興趣數(shù)據(jù)庫(kù)。在向用戶推薦新的項(xiàng)目時(shí)先通過(guò)情景識(shí)別將當(dāng)前情景與歷史情景-興趣數(shù)據(jù)進(jìn)行對(duì)比,計(jì)算情景相似度并納入興趣相似度計(jì)算中。每個(gè)情景可通過(guò)Context(T)=(Cit,C2t,…,Cnt)來(lái)表示,其中Cit表示t時(shí)期的特定情景屬性,歷史存檔的情景信息可表示為Context{H}=(Context(T1),Context(T2),…,Context(TN))。情景的相似度可同過(guò)如下公式計(jì)算:Similarity(Context(T),Context{H})=Count(Cit)+Count(C2t)+…+Count(Cnt)nN來(lái)計(jì)算,其中Count(Cit)為第i個(gè)情景屬性在歷史數(shù)據(jù)庫(kù)中出現(xiàn)的次數(shù)。情景模式中各個(gè)情景項(xiàng)的權(quán)重計(jì)算方式為

        wcj=Similarity(Context(T),Context{H})×mM。

        式中:m為情景項(xiàng)出現(xiàn)的次數(shù)。本研究將時(shí)間情景屬性分為T1、T2、T3、T4 4種,地理情景分為L(zhǎng)1、L2、L3、L4、L5 5種,作物分類情景分為B1、B2、…、B12這12種,因此在推薦時(shí)將農(nóng)戶的情景表示為21維的向量C。

        綜上所述,農(nóng)戶情景自適應(yīng)實(shí)時(shí)用戶興趣度模型可表示為wTj=αwzj+βwbj+γwcj。其中,wzj為用戶自定義的特征值權(quán)重,wbj為瀏覽行為的特征值權(quán)重,wcj為情景特征值權(quán)重,α、β、γ為權(quán)重系數(shù),且權(quán)重系數(shù)滿足α+β+γ=1,經(jīng)過(guò)多次方針試驗(yàn)可得到合理的權(quán)重系數(shù)值。

        1.3組合神經(jīng)網(wǎng)絡(luò)推薦優(yōu)化子系統(tǒng)

        組合神經(jīng)網(wǎng)絡(luò)推薦優(yōu)化子系統(tǒng)分為2個(gè)階段進(jìn)行,第1個(gè)階段是通過(guò)樸素推薦方法向用戶推薦信息,第2個(gè)階段是通過(guò)組合神經(jīng)網(wǎng)絡(luò)結(jié)合用戶的反饋進(jìn)行推薦算法的訓(xùn)練,以期得到更好的推薦結(jié)果。

        1.3.1樸素推薦階段采集農(nóng)戶的情境信息,利用wzj=SM(j,V),其中j為候選推薦頁(yè)面,V為用戶對(duì)自定義的興趣標(biāo)簽賦的權(quán)重向量,進(jìn)行頁(yè)面的初始推薦,當(dāng)農(nóng)戶的有一定的瀏覽記錄時(shí),利用IT(p)′計(jì)算已瀏覽網(wǎng)頁(yè)的興趣度并排序,選取Top-m個(gè)頁(yè)面,結(jié)合情境信息,通過(guò)wTj計(jì)算候選推薦頁(yè)面的興趣度,將所有候選推薦頁(yè)面排序,選取Top-N個(gè)網(wǎng)頁(yè)推薦給農(nóng)戶。算法見(jiàn)表1。

        1.3.2組合神經(jīng)網(wǎng)絡(luò)推薦優(yōu)化階段在經(jīng)過(guò)樸素推薦之后,利用用戶的反饋信息訓(xùn)練組合神經(jīng)網(wǎng)絡(luò),組合推薦網(wǎng)絡(luò)由BP[10]算法以及SOM[11]算法組成,訓(xùn)練樣本是用戶對(duì)推薦結(jié)果的反饋和評(píng)價(jià)。對(duì)于有反饋的任一頁(yè)面p,通過(guò)分詞和特表1樸素推薦算法

        輸入:目標(biāo)農(nóng)戶u,農(nóng)戶的情境數(shù)據(jù)和自定義標(biāo)簽數(shù)據(jù),農(nóng)戶u訪問(wèn)過(guò)的農(nóng)業(yè)信息資源集合Su。輸出:目標(biāo)農(nóng)戶u的Top-N篇推薦文檔集合。(1)采集農(nóng)戶情境信息,形成向量U,采集農(nóng)戶瀏覽資源集合Su。如果集合Su非空集,轉(zhuǎn)入(3)。(2)利用wbj計(jì)算農(nóng)戶情境與待推薦網(wǎng)頁(yè)的相似度,得到初始推薦,轉(zhuǎn)入(6)。(3)利用Web客戶端日志挖掘和服務(wù)器端日志挖掘,獲取批量客戶的瀏覽行為,并進(jìn)行標(biāo)準(zhǔn)化處理,借助熵權(quán)法,得到目標(biāo)農(nóng)戶u的行為權(quán)值。(4)讀取目標(biāo)農(nóng)戶u訪問(wèn)的每個(gè)資源i∈Su的行為數(shù)據(jù),利用IT(p)′得到基于行為的最近鄰居集合C。(5)標(biāo)準(zhǔn)化處理集合C中每一篇文檔的興趣度值,代入wTj計(jì)算得出待推薦網(wǎng)頁(yè)與農(nóng)戶情境和瀏覽行為相匹配的相似度。(6)將排序靠前的N篇文檔推薦給農(nóng)戶。

        征提取可獲得其特征向量t(p)及其用戶的評(píng)分s(p)。頁(yè)面的特征向量和用戶反饋的評(píng)分構(gòu)成了樣本Sample(p)=[t(i),s(i)],通過(guò)全部樣本可構(gòu)建一個(gè)可供訓(xùn)練和測(cè)試的樣本集。BP神經(jīng)網(wǎng)絡(luò)的輸入因子應(yīng)為產(chǎn)品的特征向量,輸出因子為用戶對(duì)產(chǎn)品的偏好(評(píng)分)。對(duì)于待推薦產(chǎn)品,在提取其產(chǎn)品特征后,將產(chǎn)品特征向量作為輸入。首先將頁(yè)面特征向量作為BP神經(jīng)網(wǎng)絡(luò)輸入,用戶反饋的信息作為BP神經(jīng)輸出,通過(guò)前4個(gè)預(yù)測(cè)第5個(gè)頁(yè)面的推薦結(jié)果,依次執(zhí)行,直至所有項(xiàng)目都有預(yù)測(cè)值,并將BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)值作為SOM網(wǎng)絡(luò)的輸出對(duì)SOM網(wǎng)絡(luò)繼續(xù)訓(xùn)練,以期獲得高準(zhǔn)確性的組合神經(jīng)網(wǎng)絡(luò)推薦算法。算法的實(shí)現(xiàn)如圖2所示。

        第1部分的BP神經(jīng)網(wǎng)絡(luò)由3個(gè)層次構(gòu)成,即輸入層、中間層和輸出層,輸入層用來(lái)Input頁(yè)面的特征數(shù)據(jù),中間層為農(nóng)戶對(duì)這些產(chǎn)品特征的喜好程度數(shù)據(jù),輸出層輸出評(píng)分值。因此BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建如下:第1層為Input層,輸入變量是網(wǎng)頁(yè)頁(yè)面的特征向量,輸入層神經(jīng)元數(shù)量應(yīng)該與網(wǎng)頁(yè)頁(yè)面的特征向量維數(shù)一致;第3層為Output層,是為用戶對(duì)該網(wǎng)頁(yè)的評(píng)分,設(shè)定神經(jīng)元個(gè)數(shù)為1;隱含層每個(gè)節(jié)點(diǎn)被用來(lái)代表農(nóng)戶對(duì)某個(gè)特征值的喜好程度,設(shè)置隱含層神經(jīng)元數(shù)量與網(wǎng)頁(yè)頁(yè)面特征向量維數(shù)一致。

        在BP神經(jīng)網(wǎng)絡(luò)中,第k層中的第j個(gè)節(jié)點(diǎn)的總輸入為Ikj則有Ikj=∑i Wjik,k-1Ojk-1;Okj=f(Ikj);

        引入層與層之間的誤差Ekj,權(quán)值的調(diào)整為

        Δwki=-ηEwki;δki=EI=EOf′(Ikj)。endprint

        所以對(duì)于輸出層單元有ΔWmjk+1,k=-ηδmk+1Ojk和δmk+1=(Ojk+1-dm)f′(Ikj),對(duì)于中間層單元有ΔWmjk+1,k=-ηδmkOjk-1;δki=EI=EOf′(Ikj)。

        本研究中的輸出函數(shù)為f(x)=1/(1+e-x),于是有f′(Imk+1)=Omk+1(1-Omk+1);f′(Imk+1)=Ojk(1-Ojk)。

        為了使結(jié)果更加精確,須要在權(quán)重調(diào)整中加入一個(gè)動(dòng)量因子α,則有ΔW(t+1)=-η-ηδmkOjk-1+αΔW(t)。

        α取值一般在0.7~1.0。通過(guò)基于經(jīng)驗(yàn)來(lái)訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)就可使之擁有映射INPUT AND OUTPUT的能力[11]。

        第2部分的實(shí)現(xiàn)是通過(guò)SOM算法來(lái)實(shí)現(xiàn),SOM算法結(jié)構(gòu)是由全互連方式連接輸入層和輸出層組成,SOM算法的特點(diǎn)是通過(guò)權(quán)值連接所有INPUT節(jié)點(diǎn)到所有OUTPUT節(jié)點(diǎn)。假如INPUT樣本為X=[X1,X2,…,Xn]T,OUTPUT神經(jīng)元i與INPUT神經(jīng)元連接的權(quán)值為Wij=[Wi1,Wi2,…,Win]T,則神經(jīng)元i的OUTPUT為Oi=∑nj=1 WijXj=WTiX。SOM算法規(guī)定:Ok=max(Oi)。則權(quán)值表達(dá)式化為

        Wij(t+1)=Wij(t)+η(xi-xb)Oi(t)。

        式中:xi為輸出節(jié)點(diǎn)的輸入向量,xb為輸出節(jié)點(diǎn)的閾值向量,O為輸入節(jié)點(diǎn)的輸出向量,η為學(xué)習(xí)系數(shù),且0<η<1,(t)=η(0)(1-t/T),t表示當(dāng)前迭代的次數(shù),T為整個(gè)迭代的次數(shù)。

        組合神經(jīng)網(wǎng)絡(luò)在線訓(xùn)練的算法見(jiàn)表2。

        2試驗(yàn)結(jié)果及分析

        2.1云環(huán)境試驗(yàn)環(huán)境的構(gòu)建

        在構(gòu)建云計(jì)算試驗(yàn)環(huán)境時(shí)采用Hadoop 0.2版本,由于Hadoop在運(yùn)行時(shí)需要JDK支持,因此選用jdk1.6.0_24。

        2.2試驗(yàn)數(shù)據(jù)及設(shè)計(jì)

        首先,需要為系統(tǒng)的源信息的抓取提供種子站點(diǎn),為了滿足種子站點(diǎn)選取的統(tǒng)計(jì)規(guī)律性,大量選取相關(guān)農(nóng)業(yè)信息類網(wǎng)站,然后統(tǒng)一歸納總結(jié),最終得到1份種子站點(diǎn)的列表。種子站點(diǎn)主要包括收購(gòu)商類、農(nóng)業(yè)信息政府官方網(wǎng)站類以及農(nóng)業(yè)信息技術(shù)與種子信息類網(wǎng)站。然后,啟動(dòng)虛擬機(jī)軟件并且啟動(dòng)Nutch,以便實(shí)現(xiàn)抓取任務(wù)。然后輸入源信息抓取指令“bin/nutch crawl url.txt -dir crawtest -depth 3-threads 4>&crawl.log”,系統(tǒng)便開(kāi)始了抓取過(guò)程。指令中,url.txt存放的是種子站點(diǎn),同時(shí)還存儲(chǔ)在數(shù)據(jù)庫(kù)中,以便后續(xù)更新;depth 3表示爬行深度為3層;threads 4表示啟動(dòng)4個(gè)線程同時(shí)抓取;crawl.log中記錄抓取日志信息,日志記錄系統(tǒng)運(yùn)行狀態(tài)。

        然后,要構(gòu)建測(cè)試文本庫(kù)。測(cè)試文本的選取規(guī)則與構(gòu)建農(nóng)戶興趣模型時(shí)的規(guī)則類似。相關(guān)部分還是以供應(yīng)信息、需求信息、政策指導(dǎo)與行情預(yù)測(cè)、良種信息、種植技術(shù)等幾個(gè)主題為中心,不相關(guān)部分則是排除這些主題的其他主題,如財(cái)經(jīng)、教育、體育及娛樂(lè)等等;兩部分各為100篇測(cè)試文本。同時(shí)選取50名農(nóng)戶測(cè)試者,通過(guò)代理系統(tǒng),自動(dòng)獲取測(cè)試對(duì)象6個(gè)月的瀏覽行為和對(duì)評(píng)價(jià)的反饋。最后獲取了50名測(cè)試對(duì)象在這6個(gè)月的47 819條有效瀏覽記錄和2 300條反饋評(píng)價(jià)信息。將記錄分為訓(xùn)練集和測(cè)試集,選取最后1月的數(shù)據(jù)作為測(cè)試集,前5個(gè)月的數(shù)據(jù)作為訓(xùn)練集。利用分詞系統(tǒng)采用ICTCLAS,通過(guò)情景自適應(yīng)實(shí)時(shí)用戶興趣模型子系統(tǒng)構(gòu)建用戶興趣模型,通過(guò)樸素推薦向用戶推薦網(wǎng)頁(yè),再通過(guò)組合神經(jīng)網(wǎng)絡(luò)推薦算法根據(jù)用戶反饋提升推薦精度。

        2.3評(píng)價(jià)指標(biāo)

        通過(guò)召回率和準(zhǔn)確率來(lái)評(píng)價(jià)推薦的效果,參照表3通過(guò)

        2.4結(jié)果分析

        首先,根據(jù)用戶的瀏覽行為記通過(guò)熵值法確定了用戶瀏覽行為的3個(gè)權(quán)重系數(shù),w1(保存和瀏覽行為的權(quán)重系數(shù))為0.43,w2(點(diǎn)擊行為的權(quán)重系數(shù))為0.22,w3(停留時(shí)間的權(quán)重系數(shù))為0.35。然后通過(guò)改變Top-N中的N取值,以步長(zhǎng)為5從10取值到30,同時(shí)改變權(quán)重因子α、β、γ,選取有代表性的5組來(lái)測(cè)試推薦系統(tǒng),通過(guò)3個(gè)評(píng)價(jià)指標(biāo)來(lái)驗(yàn)證不同N和權(quán)重因子對(duì)推薦結(jié)果的影響。試驗(yàn)結(jié)果如圖3所示。

        試驗(yàn)證明,隨著N的增加,推薦精度和準(zhǔn)確性都有所提高。通過(guò)使用基于自適應(yīng)的情景感知用戶興趣模型,推薦在召回率和準(zhǔn)確性上都有很大改善,同時(shí)隨著β、γ取值的增高,推薦召回率和準(zhǔn)確性都有所提升,說(shuō)明推薦結(jié)果受到用戶瀏覽行為和情景的影響。

        最后將2 300條用戶反饋評(píng)價(jià)記錄分成2個(gè)部分,前 2 000 個(gè)作為訓(xùn)練樣本,后300個(gè)當(dāng)作測(cè)試樣本。通過(guò)測(cè)試推薦結(jié)果召回率和準(zhǔn)確率隨著神經(jīng)網(wǎng)絡(luò)閾值變化的結(jié)果如表4所示。

        從表4可知,在實(shí)驗(yàn)室小數(shù)據(jù)量的測(cè)試環(huán)境下,當(dāng)閾值范圍在0.012附近時(shí),查全率可以達(dá)到77.5%,查準(zhǔn)率可以達(dá)到78.3%,達(dá)到了系統(tǒng)有效性的實(shí)用范圍。

        3結(jié)束語(yǔ)

        為了改變傳統(tǒng)的農(nóng)戶信息獲取方式,滿足農(nóng)戶對(duì)農(nóng)業(yè)信息產(chǎn)銷信息的個(gè)性化需求,本研究提出了1種在云計(jì)算環(huán)境下基于Hadoop和Nutch技術(shù),使用混合推薦算法設(shè)計(jì)并實(shí)現(xiàn)了針對(duì)農(nóng)業(yè)信息產(chǎn)銷信息領(lǐng)域的個(gè)性化農(nóng)業(yè)產(chǎn)銷信息推薦系統(tǒng),并根據(jù)農(nóng)戶個(gè)性化需求構(gòu)建了農(nóng)戶興趣模型,該系統(tǒng)能根據(jù)不同的農(nóng)戶需求推薦個(gè)性化的信息,最后對(duì)農(nóng)業(yè)信息個(gè)性化推薦系統(tǒng)進(jìn)行了測(cè)試,分析系統(tǒng)的查全率與查準(zhǔn)率指標(biāo),以及利用云計(jì)算將會(huì)給推薦系統(tǒng)性能帶來(lái)的影響。未來(lái)工作包括進(jìn)一步設(shè)計(jì)和完善云環(huán)境下個(gè)性化農(nóng)業(yè)信息產(chǎn)銷信息推薦系統(tǒng),研究與應(yīng)用相關(guān)的數(shù)據(jù)獲取與預(yù)處理技術(shù),以及結(jié)合云

        參考文獻(xiàn):

        [1]孟小峰,慈祥. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169.

        [2]謝桂蘭,羅省賢. 基于Hadoop MapReduce模型的應(yīng)用研究[J]. 微型機(jī)與應(yīng)用,2010,29(8):4-7.endprint

        [3]邵秀麗,劉彬,張濤. 基于Nutch的垂直搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2011,32(2):539-542,548.

        [4]Mihalcea R,Tarau P. TextRank: bring order into texts[J]. IEEE Trans on Knowledge and Data Engineering,2007,19(3):355-369.

        [5]夏天. 詞語(yǔ)位置加權(quán)TextRank的關(guān)鍵詞抽取研究[J]. 現(xiàn)代圖書情報(bào)技術(shù),2013,29(9):30-34.

        [6]趙華茗. 分布式環(huán)境下的文檔相似度研究與實(shí)現(xiàn)[J]. 現(xiàn)代圖書情報(bào)技術(shù),2011,27(增刊1):14-20.

        [7]路永和,李焰鋒. 改進(jìn)TF-IDF算法的文本特征項(xiàng)權(quán)值計(jì)算方法[J]. 圖書情報(bào)工作,2013,57(3):90-95.

        [8]Lee S K,Cho Y H,Kim S H. Collaborative filtering with ordinal scale-based implicit ratings for mobile music recommendations[J]. Information Sciences,2010,180(11):2142-2155.

        [9]于洪,李轉(zhuǎn)運(yùn). 基于遺忘曲線的協(xié)同過(guò)濾推薦算法[J]. 南京大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,46(5):520-527.

        [10]張?jiān)虑?,劉翔,孫先洋. 一種改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)算法與應(yīng)用[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2012,22(8):163-166.

        [11]楊黎剛,蘇宏業(yè),張英,等. 基于SOM聚類的數(shù)據(jù)挖掘方法及其應(yīng)用研究[J]. 計(jì)算機(jī)工程與科學(xué),2007,29(8):133-136.

        [12]張巖,郭松,趙國(guó)海. 基于Hadoop的云計(jì)算試驗(yàn)平臺(tái)搭建研究[J]. 沈陽(yáng)師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,31(1):85-89.

        [13]Egghe L. The measures precision,recall,fallout and miss as a function of the number of retrieved documents and their mutual interrelations [J]. Information Processing and Management,2008,44(2):856-876.趙宏才,趙曉杰,張興波,等. 基于專家系統(tǒng)的黃瓜園區(qū)無(wú)線智能監(jiān)控系統(tǒng)研究[J]. 江蘇農(nóng)業(yè)科學(xué),2017,45(17):215-218.

        doi:10.15889/j.issn.1002-1302.2017.17.057endprint

        猜你喜歡
        推薦系統(tǒng)
        數(shù)據(jù)挖掘在選課推薦中的研究
        軟件(2016年4期)2017-01-20 10:09:33
        基于用戶偏好的信任網(wǎng)絡(luò)隨機(jī)游走推薦模型
        基于個(gè)性化的協(xié)同過(guò)濾圖書推薦算法研究
        個(gè)性化推薦系統(tǒng)關(guān)鍵算法探討
        淺談Mahout在個(gè)性化推薦系統(tǒng)中的應(yīng)用
        關(guān)于協(xié)同過(guò)濾推薦算法的研究文獻(xiàn)綜述
        商(2016年29期)2016-10-29 15:22:08
        一種基于自適應(yīng)近鄰選擇的協(xié)同過(guò)濾推薦算法
        UGC標(biāo)簽推薦系統(tǒng)的一種新的標(biāo)簽清理方法
        商(2016年15期)2016-06-17 17:39:50
        網(wǎng)上商品推薦系統(tǒng)設(shè)計(jì)研究
        基于消費(fèi)者視角的在線推薦系統(tǒng)研究綜述
        亚洲综合性色一区| 老色鬼在线精品视频| 国产又黄又爽又色的免费| 国产视频毛片| 亚洲精品尤物av在线网站| 日韩一区二区三区精品视频| 日韩人妻无码一区二区三区久久| 久久国产精久久精产国| 国产人成无码视频在线1000| 男女互舔动态视频在线观看| 国产99视频精品免视看7| 亚洲国产综合精品 在线 一区| 仙女白丝jk小脚夹得我好爽| 久久精品国产亚洲av四区| 偷看农村妇女牲交| 色一乱一伦一图一区二区精品| 国产精品电影久久久久电影网 | 人妻丰满熟妇av无码区| 欧美另类视频在线| 久久国产劲爆内射日本| 91精品亚洲成人一区二区三区| 久久久久女人精品毛片| 久久综合视频网站| 中文字幕有码久久高清| 国产综合精品一区二区三区| 欧美国产成人精品一区二区三区| 日日噜噜夜夜狠狠久久av| 免费av日韩一区二区| 中文字幕乱偷无码av先锋蜜桃| 国产中文制服丝袜另类| av在线不卡一区二区三区| 亚洲色偷偷偷综合网| 天天躁日日躁狠狠躁人妻| 亚洲av综合日韩精品久久久| 美女丝袜美腿玉足视频| 国产如狼似虎富婆找强壮黑人| 久久精品视频91| 亚洲国产av一区二区不卡| 天堂中文官网在线| 伊人一道本| 人妻少妇中文字幕久久hd高清|