亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        學(xué)術(shù)搜索引擎的優(yōu)化策略

        2015-05-30 05:42:35侯聰聰楊世光
        科技創(chuàng)新導(dǎo)報(bào) 2015年18期
        關(guān)鍵詞:檢索

        侯聰聰 楊世光

        摘 要:該文介紹了一種新的檢索模型,提高學(xué)術(shù)搜索引擎的檢全率及檢索效率。該擴(kuò)展模型的創(chuàng)新點(diǎn)在于引入檢索詞的下位詞構(gòu)成新的檢索詞組,不再局限于檢索詞本身字面上的匹配;且文獻(xiàn)列表的排序?qū)W(xué)術(shù)價(jià)值這一因素考慮在內(nèi),根據(jù)相關(guān)度及學(xué)術(shù)價(jià)值的綜合評分機(jī)制對檢索結(jié)果進(jìn)行有序輸出。該模型具有一定的科學(xué)性和實(shí)用性,但是其排序的評分機(jī)制等需要在未來的研究中進(jìn)一步細(xì)化,完善。該擴(kuò)展模型主要適用于對檢全率要求較高的學(xué)術(shù)系統(tǒng)及網(wǎng)站。

        關(guān)鍵詞:學(xué)術(shù)搜索引擎 擴(kuò)展模型 檢索 文獻(xiàn)排名

        中圖分類號:G64 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號:1674-098X(2015)06(c)-0243-01

        不同于普通網(wǎng)站或系統(tǒng)的搜索引擎,本文所研究的學(xué)術(shù)搜索引擎是專門針對于知識(shí)庫的一類搜索引擎,其檢索對象較為單一,為期刊、文獻(xiàn)等數(shù)字學(xué)術(shù)資源。該文以CNKI為例。當(dāng)前學(xué)術(shù)搜索引擎檢索模型一般采用布爾模型、向量模型等傳統(tǒng)的檢索模型[1],這類檢索方式只能對檢索的關(guān)鍵詞進(jìn)行字面上的匹配,而忽略了其內(nèi)在含義的相似度,降低了學(xué)術(shù)搜索引擎的檢全率。該文淺談一種更加全面的檢索模型,以提高其檢索效率。在該文中此模型統(tǒng)一簡稱為擴(kuò)展模型。

        1 理論依據(jù)

        當(dāng)用戶輸入檢索詞后,返回具有相關(guān)信息的文獻(xiàn)排名列表。此列表的確定取決于文獻(xiàn)的關(guān)鍵詞或題目及其下位詞是否與檢索詞匹配。此列表的排序則取決于文獻(xiàn)與檢索詞的相關(guān)度及該文獻(xiàn)的學(xué)術(shù)價(jià)值。該文根據(jù)文獻(xiàn)所屬期刊的影響因子評定文獻(xiàn)的學(xué)術(shù)價(jià)值。

        所以該模型獲取檢索詞后,首先,根據(jù)建好的學(xué)科專長詞表(表1)利用其下位詞進(jìn)行擴(kuò)展,擴(kuò)展后成為擴(kuò)展檢索詞組;其次,從文獻(xiàn)庫中抽取文獻(xiàn)題目或關(guān)鍵詞中含有擴(kuò)展檢索詞組的文獻(xiàn);但是檢索詞與其下位詞能提供的相關(guān)度權(quán)重不同,根據(jù)已確定的評分機(jī)制(第三部分將詳細(xì)給出)即可計(jì)算相關(guān)文獻(xiàn)的得分,按得分高低得出文獻(xiàn)列表。

        2 模型介紹

        該模型是為了提高文獻(xiàn)的查全率,借鑒了文獻(xiàn)[2]結(jié)合專長詞表的專家檢索方法,即用戶輸入檢索詞后,利用詞表對檢索詞進(jìn)行擴(kuò)展。具體設(shè)計(jì)如下。

        2.1 構(gòu)建主題詞表

        專長詞表的一、二級詞匯由中國分類主題詞表中對應(yīng)分類的主題詞經(jīng)稍加改造得來。專長詞表分為三級,其中部分一、二級詞匯如表1所示。

        對每一個(gè)二級詞還需建立相應(yīng)的三級詞文檔,一個(gè)學(xué)術(shù)研究領(lǐng)域較長時(shí)間內(nèi)的大量學(xué)術(shù)研究成果的關(guān)鍵詞的集合,可以揭示研究成果的總體內(nèi)容特征、研究內(nèi)容之間的內(nèi)在聯(lián)系、學(xué)術(shù)研究的發(fā)展脈絡(luò)與發(fā)展方向[3],該文以中國知網(wǎng)CNKI數(shù)據(jù)庫2010—2014年核心期刊上相關(guān)文獻(xiàn)的所有關(guān)鍵詞作為三級詞匯來源。

        2.2 確定文獻(xiàn)列表

        用戶輸入檢索詞后,首先,利用該檢索詞的下位詞進(jìn)行擴(kuò)展。其次,根據(jù)CNKI數(shù)據(jù)庫文獻(xiàn)表中的文獻(xiàn)題目和關(guān)鍵詞,生成題目或關(guān)鍵詞中含有擴(kuò)展檢索詞組中詞的文獻(xiàn),此即符合查詢主題的專家文獻(xiàn)。

        2.3 文獻(xiàn)排名的實(shí)現(xiàn)

        文獻(xiàn)排名依據(jù)兩方面:一是依據(jù)文獻(xiàn)與檢索詞的相關(guān)度;二是依據(jù)該文獻(xiàn)的學(xué)術(shù)價(jià)值。在此基礎(chǔ)上,雖然文獻(xiàn)最終得分與文獻(xiàn)中含有檢索詞組中詞的數(shù)量有一定關(guān)系,但并不意味著二者成絕對的正相關(guān),而是僅對同一篇文獻(xiàn)來說,隨著相關(guān)詞數(shù)量的增加,最終得分也增加。最后按文獻(xiàn)得分由高到低得出有序的文獻(xiàn)列表。

        一般地,題目和關(guān)鍵詞能集中體現(xiàn)文章的主要內(nèi)容,故取文獻(xiàn)的題目和關(guān)鍵詞衡量其相關(guān)度,按體現(xiàn)程度的不同,給二者賦予不同的系數(shù),該文分別將其設(shè)定為0.6和0.4(式(2))。其次,在檢索詞組中,詞本體與其下位詞體現(xiàn)相關(guān)度也不同,將其權(quán)數(shù)分別設(shè)為0.7和0.3(式(4))。最后,由于期刊的級別不同,其權(quán)威性也不同,因此,可取期刊的影響因子衡量文獻(xiàn)的學(xué)術(shù)價(jià)值。相關(guān)度和學(xué)術(shù)價(jià)值的系數(shù)分別設(shè)為0.8和0.2(式(3))。

        計(jì)分公式如下:

        Wk=Skrel+Skval (1)

        Wk為文獻(xiàn)k的得分;Skrel為文獻(xiàn)k的相關(guān)度得分;Skval為文獻(xiàn)k的學(xué)術(shù)價(jià)值得分。

        Wk=(0.6×Pktil+0.4×Pkkey)+Skval (2)

        Pktil為檢索詞組中詞在文獻(xiàn)k的題目中出現(xiàn)的頻數(shù);Pkkey為檢索詞組中詞在文獻(xiàn)k的關(guān)鍵詞中出現(xiàn)的頻數(shù)。

        Wk=0.8×(0.6×Pktil+0.4×Pkkey)+0.2×Skval (3)

        Wk=0.8×[0.6×(0.7Pkts+0.3Pkte)+0.4×(0.7Pkks+0.3Pkke)]+0.2×Skval (4)

        Pkts與Pkte分別為檢索詞本體及其擴(kuò)展詞在題目中出現(xiàn)的頻數(shù);Pkks與Pkke則分別為檢索詞的本體及擴(kuò)展詞在文獻(xiàn)關(guān)鍵詞中出現(xiàn)的頻數(shù)。

        在計(jì)算出3.2節(jié)所得文獻(xiàn)列表中每篇文獻(xiàn)的分值后,按分值高低排序即可得出有序的文獻(xiàn)列表。

        3 結(jié)語

        該模型的創(chuàng)新點(diǎn)在于突破了布爾模型、向量模型等傳統(tǒng)模型的僵性匹配模式,通過下位詞匹配提高模型的檢全率,使檢索方式更加智能。同時(shí)在進(jìn)行排序時(shí),將學(xué)術(shù)價(jià)值這一因素考慮在內(nèi)。該模型可用于對檢全率要求較高的系統(tǒng)。但是該模型也有一些缺陷,其評分標(biāo)準(zhǔn)有待進(jìn)一步的細(xì)化、考證;同時(shí)檢準(zhǔn)率有待提高。

        參考文獻(xiàn)

        [1] 王娟琴.三種檢索模型的比較研究-布爾、概率、向量空間模型[J].情報(bào)科學(xué),1998(3):225-230,260.

        [2] 陸偉,劉杰,秦喜艷.基于專長詞表的圖情領(lǐng)域?qū)<覚z索與評價(jià)[J].中國圖書館學(xué)報(bào),2010(2):70-76.

        [3] 李文蘭,楊祖國.中國情報(bào)學(xué)期刊文獻(xiàn)關(guān)鍵詞詞頻分析[J].情報(bào)科學(xué),2005,23(1):68-70,143.

        猜你喜歡
        檢索
        The effective transfection of a low dose of negatively charged drugloaded DNA-nanocarriers into cancer cells via scavenger receptors
        瑞典專利數(shù)據(jù)庫的檢索技巧
        一種基于Python的音樂檢索方法的研究
        電子制作(2019年14期)2019-08-20 05:43:48
        2019年第4-6期便捷檢索目錄
        基于多尺度投影的相似顱骨檢索
        供求速遞
        《國外醫(yī)藥抗生素分冊》第37卷1~6期(2016年)目次檢索
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        基于改進(jìn)的GHSOM聚類算法的圖像檢索
        國際|標(biāo)準(zhǔn)|檢索
        亚洲一区 日韩精品 中文字幕 | 久久精品熟女亚洲av艳妇| 国产精品一区二区久久蜜桃| 亚洲精品乱码久久久久久不卡| 少妇高清精品毛片在线视频| 国产WW久久久久久久久久| 大屁股流白浆一区二区| 国产毛女同一区二区三区| 小sao货水好多真紧h无码视频| 国产一区视频在线免费观看| 国产人妖一区二区在线| 成人久久久精品乱码一区二区三区| 国产亚洲精品美女久久久| 99久久久无码国产精品9| 日韩女优中文字幕在线| 蜜臀av一区二区三区久久| 欧洲vat一区二区三区| 国产在视频线精品视频www666| 亚洲一区二区三区在线| 成人性生交大片免费入口| 丰满人妻被黑人猛烈进入| 国产免费久久精品99re丫y| 色综合久久人妻精品日韩| 亚洲精品一区久久久久一品av| 天天摸日日摸狠狠添| 一区二区三区免费视频网站 | 精品亚洲一区二区三区四区五区 | av免费不卡一区二区| 国产精品欧美一区二区三区不卡| 亚洲国产精品国自产电影| 日韩av一区二区在线观看| 一区二区和激情视频| 欧美丰满大乳高跟鞋| 亚洲一二三四五区中文字幕| 国产av一区二区三区在线播放 | 国产精品午睡沙发系列| 少妇一级aa一区二区三区片| 高清日韩av在线免费观看| 中文亚洲欧美日韩无线码| 久久精品免视看国产盗摄| 日本一区二区三区爱爱视频|