亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種柔性策略的圖書信息自動(dòng)采集研究

        2021-07-14 07:07:18黨小琴
        關(guān)鍵詞:感興趣柔性準(zhǔn)確率

        黨小琴

        (陜西學(xué)前師范學(xué)院,陜西 西安 710100)

        信息化時(shí)代中,海量的數(shù)據(jù)充斥著人們的生活,在信息大爆炸時(shí)代背景下如何合理地獲取知識(shí)是值得探討和需要解決的問(wèn)題[1]。以圖書信息為例,傳統(tǒng)的知識(shí)信息獲取方式在效率和精準(zhǔn)度上已經(jīng)無(wú)法滿足人們快節(jié)奏的要求,如何在短時(shí)間內(nèi)獲取圖書信息是亟需解決的問(wèn)題,這樣可以有效縮短搜索時(shí)間,提高借閱體驗(yàn)感[2-3]。

        近年來(lái),關(guān)于圖書館信息技術(shù)方面的研究成果雖然較多,但是大多數(shù)研究成果集中于圖書管理系統(tǒng)的改良和圖書信息的收錄,少部分研究成果會(huì)涉及到圖書信息的采集與過(guò)濾,相關(guān)研究不夠深入[4-6]。目前來(lái)看,圖書信息管理方面的研究存在如下問(wèn)題[7-9]:1)圖書信息不夠精確,較為粗糙的算法無(wú)法打磨出精準(zhǔn)的信息展示平臺(tái),導(dǎo)致用戶黏性較低;2)啟動(dòng)方式不智能,目前主流的信息啟動(dòng)方式為冷啟動(dòng),分為物品冷啟動(dòng)和用戶冷啟動(dòng),剛接觸系統(tǒng)的用戶由于在系統(tǒng)中沒(méi)有留下任何瀏覽記錄,系統(tǒng)無(wú)法計(jì)算出用戶是否對(duì)某一門類書籍感興趣;3)圖書信息的多樣性欠缺,現(xiàn)有的圖書管理信息系統(tǒng)主要對(duì)與用戶感興趣圖書的類似文獻(xiàn)進(jìn)行集中推薦,缺乏擴(kuò)展,用戶易產(chǎn)生查閱疲勞,對(duì)于用戶來(lái)說(shuō),單一推薦他們感興趣的書籍無(wú)法對(duì)搜索結(jié)果進(jìn)行解釋,也無(wú)法達(dá)到最佳的用戶體驗(yàn)。

        本文提出了一種基于柔性策略的用戶信息優(yōu)化圖書推薦方法,將其用于圖書信息的自動(dòng)采集和優(yōu)化篩選,該方法能夠提高信息采集的速率和信息推進(jìn)的精準(zhǔn)度。

        1 柔性策略優(yōu)先級(jí)算法

        1.1 常用算法簡(jiǎn)介

        目前,關(guān)于優(yōu)先級(jí)推薦算法的研究成果雖然很多,但是應(yīng)用于圖書信息推薦的較少,較為常見的算法主要有以下3種[10]。

        1)內(nèi)容推薦算法。

        內(nèi)容推薦算法是一種最為常用的圖書信息個(gè)性化推薦方法,該算法基于用戶歷史搜索數(shù)據(jù),將其搜索較多的一類圖書分類后給予推薦,主要推薦的是用戶偏好模型中的相似書籍,在評(píng)估過(guò)程中用戶興趣信息和圖書信息呈現(xiàn)相似性關(guān)聯(lián)關(guān)系。其流程如圖1所示。

        圖1 內(nèi)容推薦算法流程

        2)鄰域推薦算法。

        鄰域推薦算法主要是將當(dāng)前用戶搜索過(guò)程中發(fā)現(xiàn)的與其搜索內(nèi)容相似的鄰近用戶的搜索內(nèi)容篩選出來(lái)進(jìn)行匹配和評(píng)分,將得分最高的信息推薦給用戶。該算法計(jì)算思路如下:首先輸入k個(gè)鄰近參數(shù)(用于指代圖書信息關(guān)鍵詞),然后將用戶搜索數(shù)據(jù)拆分為訓(xùn)練集和測(cè)試集,在分拆過(guò)程中數(shù)據(jù)進(jìn)行相似性排序形成新用戶矩陣,當(dāng)矩陣排列完成后對(duì)k個(gè)鄰近用戶分別進(jìn)行相似度匹配,最終根據(jù)不同匹配分?jǐn)?shù)獲取推薦物品信息。

        3)混合推薦算法。

        由于不同的個(gè)性化信息推送算法各有優(yōu)劣,因此在工業(yè)實(shí)踐中往往將不同算法進(jìn)行組合形成新的混合推薦算法,這類算法能夠取長(zhǎng)補(bǔ)短,提高數(shù)據(jù)推送的準(zhǔn)確性。目前主流的混合推薦算法有整體融合、并行融合和線性融合3種,其中線性融合算法是較為流行的算法,該算法利用協(xié)同過(guò)濾技術(shù)將一定數(shù)量的信息進(jìn)行排序和分類,然后將結(jié)果導(dǎo)入混合模型通過(guò)分析得出推薦內(nèi)容。

        1.2 柔性策略混合算法

        常用的算法雖然有一定適用性,但是在運(yùn)行效率和個(gè)性化程度上依然存在一些短板,因此本文提出了柔性策略混合算法。該算法將不同類型的圖書信息劃分到不同的象限進(jìn)行歸納,計(jì)算出不同優(yōu)先級(jí),采集過(guò)程中利用柔性采集方案避免發(fā)生信息相互干擾,然后利用雙重量化判定降低數(shù)據(jù)波動(dòng)程度,以此形成一個(gè)良性的信息推薦及調(diào)整方案。

        在建立圖書信息的過(guò)程中,本文利用模糊綜合評(píng)價(jià)法進(jìn)行量化處理,從而劃分出不同的象限組合進(jìn)行判斷。

        1)構(gòu)建判定因子U子集:U={u1,u2},其中u1為判別信息的重要性,u2為判別信息的效率;

        2)構(gòu)建圖書信息因子的權(quán)重集合A:A={a1,a2,…},權(quán)重值在對(duì)因素進(jìn)行審慎分析后得出;

        3)構(gòu)建判定集V,V={v1,v2,…},以專業(yè)技術(shù)人員的研究結(jié)果為指導(dǎo),獲得圖書信息的判定矩陣R。

        (1)

        模糊綜合判斷法的判別公式如下:

        (2)

        式中:B為模糊綜合判別值;aj為標(biāo)準(zhǔn)信息文本數(shù)量集;rjk為判定子集中的向量;k為某一閾值參數(shù)。

        由式(2)可獲得采用象限優(yōu)先級(jí)的判別結(jié)果。另外,當(dāng)臨近數(shù)據(jù)發(fā)生變化時(shí),采集方案也應(yīng)該變化,由于臨時(shí)變化導(dǎo)致的數(shù)據(jù)采集間隔發(fā)生了無(wú)序變動(dòng)會(huì)產(chǎn)生誤差,因此本文采用雙重誤差判別,判別公式如下:

        第一次判別

        (3)

        第二次判別

        (4)

        式中:f0為原始判別平均值;f1為第一次判別結(jié)果;f2為第二次判別結(jié)果;i為某一個(gè)數(shù)據(jù)采集點(diǎn);fi為判別中間結(jié)果。

        1.3 算法評(píng)價(jià)指標(biāo)

        信息推薦算法是否合格并滿足用戶需求,需要用評(píng)分準(zhǔn)確率、推薦準(zhǔn)確率和覆蓋率3個(gè)指標(biāo)去評(píng)價(jià):第一,評(píng)分準(zhǔn)確率,可以先建立用戶偏好模型,然后采用均方根誤差算法對(duì)用戶對(duì)陌生領(lǐng)域的書籍的興趣愛好進(jìn)行評(píng)估;第二,推薦準(zhǔn)確率,通過(guò)召回率和準(zhǔn)確率兩者來(lái)衡量,例如給用戶推薦了n本書籍,以其占用戶喜歡的圖書集的比例作為準(zhǔn)確率;第三,覆蓋率,主要用于評(píng)價(jià)算法對(duì)潛在圖書數(shù)據(jù)的挖掘能力,是否可以幫用戶找出那些不夠流行但又比較感興趣的信息。

        2 圖書信息自動(dòng)采集與過(guò)濾

        以某網(wǎng)站圖書信息推薦版塊的數(shù)據(jù)作為源數(shù)據(jù),該網(wǎng)可以獲取用戶對(duì)不同圖書的評(píng)分、評(píng)價(jià)和愛好程度,還可以獲取圖書的基本信息如目錄、出版日期、出版單位和評(píng)論人數(shù)等。在瀏覽圖書的過(guò)程中,界面會(huì)給用戶提供一個(gè)“最受關(guān)注圖書”版塊,目的是給用戶推薦其感興趣的書籍,但是研究后發(fā)現(xiàn)針對(duì)不同用戶所推薦的圖書目錄基本一致,如圖2所示。

        圖2 圖書推薦界面

        從網(wǎng)站推薦結(jié)果來(lái)看,網(wǎng)站所采取的算法個(gè)性化程度較低,無(wú)法滿足信息個(gè)性化需求,對(duì)于用戶偏好的解析較慢。本文采用柔性策略算法的目的便是改良這一信息推薦算法,具體的算法流程如圖3所示。

        圖3 柔性策略信息采集算法流程

        首先依據(jù)模糊綜合評(píng)價(jià)來(lái)實(shí)現(xiàn)圖書信息建模和圖書內(nèi)容向量化;然后將用戶感興趣的圖書進(jìn)行整合,建立用戶偏好模型;最后采用二次校正判別方法對(duì)偏好模型和圖書內(nèi)容模型進(jìn)行匹配,從而獲得用戶最感興趣的圖書信息。具體算法步驟如下:

        1)圖書信息采集和建模。

        首先,將圖書信息按照?qǐng)D書編號(hào)、書名、作者、關(guān)鍵詞等信息進(jìn)行歸納整理,見表1;然后將圖書劃分為不同的象限之后,對(duì)書籍的關(guān)鍵信息權(quán)重大小進(jìn)行自動(dòng)分類。本文使用的建模軟件為MATLAB,該軟件中的model模塊能夠?qū)π畔⑤斎胛谋具M(jìn)行向量化表達(dá),從而獲得最合理的向量值。

        表1 圖書關(guān)鍵信息分類表

        2)用戶借閱偏好建模。

        基于評(píng)分法(5分為滿分),若一本圖書用戶評(píng)分為3分,表示該圖書比較受讀者青睞,是用戶比較偏愛的圖書,然后收集和統(tǒng)計(jì)該圖書的關(guān)鍵信息,提取用戶較為重視的關(guān)鍵詞,調(diào)用Doc2vec算法再次對(duì)其進(jìn)行訓(xùn)練,得到用戶與圖書之間的相識(shí)度平均值。

        3)相識(shí)度預(yù)測(cè)。

        本文利用Person算法計(jì)算用戶偏好與圖書信息之間的關(guān)聯(lián)度,Person算法中,用戶對(duì)某一個(gè)圖書信息的喜好程度可以量化為[-1,1],若預(yù)測(cè)分?jǐn)?shù)為正值代表用戶偏好這本圖書,若為負(fù)值代表用戶對(duì)該圖書不感興趣,預(yù)測(cè)評(píng)分公式為:

        (5)

        式中:f(·)為用戶u對(duì)某圖書s的感興趣程度評(píng)分;r為用戶和圖書之間的相識(shí)度;M為達(dá)標(biāo)關(guān)鍵詞。

        4)二次矩陣判斷。

        經(jīng)過(guò)上述步驟獲得了采用象限優(yōu)先級(jí)的判別結(jié)果,基于這個(gè)結(jié)果再以用戶點(diǎn)擊頻率高為原則,依據(jù)圖書信息采集量和運(yùn)行狀態(tài)數(shù)進(jìn)行二次判別,判別過(guò)程中剔除無(wú)序變動(dòng)和臨時(shí)變化所產(chǎn)生的圖書信息,最后根據(jù)預(yù)測(cè)分值排序得到用戶最感興趣的圖書集。

        3 實(shí)證分析評(píng)價(jià)

        為驗(yàn)證該柔性策略的圖書信息推薦準(zhǔn)確率,以某網(wǎng)站所收集的讀書評(píng)分?jǐn)?shù)據(jù)為原始依據(jù),采集用戶評(píng)分共計(jì)3萬(wàn)條(其中評(píng)論數(shù)據(jù)2.5萬(wàn)條,圖書數(shù)據(jù)0.5萬(wàn)條),截止時(shí)間為2020年10月18日。由于部分用戶閱讀量太小導(dǎo)致評(píng)價(jià)結(jié)果不夠合理,算法訓(xùn)練容易受到干擾,因此本文選取圖書借閱數(shù)量在100本以上的用戶評(píng)分作為有效評(píng)分。

        3.1 評(píng)分準(zhǔn)確率對(duì)比

        以評(píng)分準(zhǔn)確率作為本文算法優(yōu)劣的評(píng)價(jià)指標(biāo)之一。采用評(píng)分準(zhǔn)確率的RMSE均方根誤差來(lái)進(jìn)行評(píng)判,RMSE值越高,誤差越大,RMSE值越低,則誤差越小。評(píng)價(jià)過(guò)程中考慮數(shù)據(jù)量過(guò)于龐大,選取針對(duì)性的10次隨機(jī)驗(yàn)證過(guò)程,每次驗(yàn)證抽取10名用戶進(jìn)行反饋和推薦圖書,其RMSE值如圖4所示。

        圖4 評(píng)分準(zhǔn)確率RMSE均方根誤差對(duì)比結(jié)果

        從圖4可以看出,采用柔性策略的Doc2vec算法其RMSE值為0.2~1.0,而一般算法的RMSE值最大接近2.5,最小為0.4,由此可以看出柔性策略算法的預(yù)測(cè)誤差值更小。另外發(fā)現(xiàn),一般算法的預(yù)測(cè)誤差值離散度較大,其推薦給用戶感興趣的圖書穩(wěn)定性差,說(shuō)明后者對(duì)于圖書信息的把握更穩(wěn)定和準(zhǔn)確。

        3.2 推薦準(zhǔn)確率評(píng)價(jià)

        為對(duì)比不同算法的推薦準(zhǔn)確率,采用召回率和準(zhǔn)確率作為評(píng)價(jià)指標(biāo),內(nèi)容推薦算法、鄰域推薦算法和柔性策略混合Doc2vec算法的測(cè)試結(jié)果對(duì)比如圖5和圖6所示。

        從圖5可以看出,內(nèi)容推薦算法與鄰域推薦算法的召回率基本相近,均值在10%左右,柔性策略算法的召回率明顯高于前兩者,為19%~20%。從圖6可以看出,基于內(nèi)容推薦算法的準(zhǔn)確率最低,約為0.07%;基于鄰域推薦算法的準(zhǔn)確率為0.08%~0.09%,而柔性策略算法的準(zhǔn)確率為0.14%~0.16%。整體上來(lái)說(shuō),采用柔性策略的混合算法大幅度提高了圖書信息采集效率和推薦準(zhǔn)確率。

        圖5 召回率對(duì)比曲線

        圖6 準(zhǔn)確率對(duì)比曲線

        4 結(jié)束語(yǔ)

        為解決傳統(tǒng)的圖書信息采集和推薦算法在速率和推薦精度上低效的問(wèn)題,本文提出了基于柔性策略的混合(Doc2vec)算法,設(shè)計(jì)了圖書信息采集和優(yōu)化過(guò)濾方案,并以某網(wǎng)站圖書數(shù)據(jù)為例進(jìn)行了實(shí)證研究對(duì)比,結(jié)果發(fā)現(xiàn)該方法能夠大幅度提高圖書信息采集的效率和推薦準(zhǔn)確率,具有一定的實(shí)用價(jià)值和推廣意義。

        猜你喜歡
        感興趣柔性準(zhǔn)確率
        一種柔性拋光打磨頭設(shè)計(jì)
        灌注式半柔性路面研究進(jìn)展(1)——半柔性混合料組成設(shè)計(jì)
        石油瀝青(2021年5期)2021-12-02 03:21:18
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        高校學(xué)生管理工作中柔性管理模式應(yīng)用探索
        更 正
        含能材料(2021年1期)2021-01-10 08:34:34
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        這樣的智能廚房臺(tái)面,你會(huì)感興趣嗎?
        夢(mèng)斷交易會(huì)
        日本视频在线观看一区二区| 欧洲熟妇色xxxx欧美老妇多毛图片| 人妻丝袜无码国产一区| 国语少妇高潮对白在线| 中文字幕精品亚洲人成| 久久露脸国产精品WWW| 日本二区视频在线观看| 亚洲综合在线观看一区二区三区| 成人影片麻豆国产影片免费观看 | 精品午夜中文字幕熟女| 精品国产亚洲亚洲国产| 色欲网天天无码av| 天美传媒一区二区| 亚洲中文久久精品无码ww16| 亚洲 成人 无码 在线观看| 国产亚洲av片在线观看18女人| 免费黄网站一区二区三区| 99国语激情对白在线观看| 亚洲视频观看一区二区| 日本av一区二区三区视频| 国内精品久久久人妻中文字幕| 无码国产精品一区二区免费模式| 亚洲AV无码精品呻吟| 日本二区三区视频在线观看| 国产激情在线观看免费视频| 国产偷久久久精品专区| 久久久精品欧美一区二区免费| 久久中文字幕亚洲精品最新| 日本淫片一区二区三区| 337p日本欧洲亚洲大胆色噜噜 | 久久久久亚洲精品中文字幕| JIZZJIZZ国产| 久久国产亚洲中文字幕| 国产女同舌吻1区2区| 亚洲日产精品一二三四区| 麻豆国产av尤物网站尤物| 日本一区二区三区在线观看免费| 久久日本视频在线观看| 国产精品久久久久久久久久红粉 | 永久免费视频网站在线| 国产精品v欧美精品v日韩精品|